Chat with Wiki - 最好的代码模型是？

Answer

目前对于“最好的代码模型”没有一个绝对的定论。以下为您介绍一些常见且受到关注的代码模型：

许多人认为 3.5 Sonnet 是较好的代码模型，但它没有相关论文。
开放代码模型方面，您可以从 DeepSeek-Coder（https://ar5iv.labs.arxiv.org/html/2401.14196?_immersive_translate_auto_translate=1）、Qwen2.5-Coder（https://arxiv.org/html/2409.12186?_immersive_translate_auto_translate=1）或 CodeLlama 中选择。
智谱·AI 开源模型列表中的代码模型有：
- CodeGeeX2-6B：是 CodeGeeX 的第二代模型，基于 ChatGLM2 架构加入代码预训练实现，在多项指标上有性能提升。
- CodeGeeX2-6B-int4：CodeGeeX2 的量化版本。
- CodeGeeX-13B：第一代 CodeGeeX，具有 130 亿参数的多编程语言代码生成预训练模型。

需要注意的是，最好的模型将来自优秀的人类数据和合成数据的结合，同时对于模型的评估还涉及到如“氛围感”等较主观和难以量化的方面。

Content generated by AI large model, please carefully verify (powered by aily)

References

GPT1到Deepseek R1所有公开论文The 2025 AI Engineer Reading List

1.Open Code Model papers choose from[DeepSeek-Coder](https://ar5iv.labs.arxiv.org/html/2401.14196?_immersive_translate_auto_translate=1),[Qwen2.5-Coder](https://arxiv.org/html/2409.12186?_immersive_translate_auto_translate=1),or CodeLlama.Many regard[3.5 Sonnet as the best code model](https://www.latent.space/p/claude-sonnet)but it has no paper.开放代码模型论文——从DeepSeek-Coder、Qwen2.5-Coder或CodeLlama中选择。许多人认为3.5 Sonnet是最好的代码模型，但它没有论文。[DeepSeek-Coder When the Large Language Model Meets Programming--The Rise of Code Intelligence.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/XPQjbIRFCoKgH9xYUdMc0DFEnwb?allow_redirect=1)[Qwen2.5-Coder Technical Report.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/Qlpjb2OrnopSfhxBaqUcMcgYnod?allow_redirect=1)[Code Llama Open Foundation Models for Code.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/K210bNcv6or9qSxl7BJcaVdjnJe?allow_redirect=1)

智谱·AI 开源模型列表

|模型|介绍|代码链接|模型下载||-|-|-|-||CodeGeeX2-6B|CodeGeeX2是多语言代码生成模型[CodeGeeX](https://github.com/THUDM/CodeGeeX)([KDD’23](https://arxiv.org/abs/2303.17568))的第二代模型。不同于一代CodeGeeX，CodeGeeX2是基于[ChatGLM2](https://github.com/THUDM/ChatGLM2-6B)架构加入代码预训练实现，得益于ChatGLM2的更优性能，CodeGeeX2在多项指标上取得性能提升（+107%>CodeGeeX；仅60亿参数即超过150亿参数的StarCoder-15B近10%）。|[CodeGeeX2](https://github.com/THUDM/CodeGeeX2)|[Huggingface](https://huggingface.co/THUDM/codegeex2-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/codegeex2-6b/summary)||CodeGeeX2-6B-int4|CodeGeeX2的量化版本||[Huggingface](https://huggingface.co/THUDM/codegeex2-6b-int4)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/CodeGeeX2-6B-int4/summary)||CodeGeeX-13B|第一代CodeGeeX，具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX采用华为MindSpore框架实现，在鹏城实验室“鹏城云脑II”中的192个节点（共1536个国产[昇腾910 AI处理器](https://e.huawei.com/cn/products/servers/ascend)）上训练而成。|[CodeGeeX](https://github.com/THUDM/CodeGeeX)|[CodeGeeX下载](https://models.aminer.cn/codegeex/download/request)|

Anthropic CPO 万字专访：不再只做模型！后悔没有更早做第一方产品

Claude这周一直在玩宝可梦，这对于我们的研究和工程团队来说，是一个有趣但有点分散注意力的消遣。大家都在关注Claude玩宝可梦的直播。我认为游戏是一个有趣的例子，你可以想象在同一个游戏中进行许多不同的运行，并设置一些约束和规则。但当问题空间不如「你是否走出了常磐森林？」（我没玩过宝可梦，只是看直播学的）那样明确时，情况就会变得更加复杂。但能够采用黄金路径，并综合各种方法仍然很重要，这样你才能思考模型如何在不确定性中进步。所以我认为这绝对需要混合方法，最好的模型将来自优秀的人类数据和合成数据的结合。例如，对于代码模型来说，需要有良好的基础代码和示例，但也要能够探索各种各样的路径。另一个仍然被低估的部分是，如何衡量和评估模型的性格，以及如何获取性格数据。我用一个非常宽泛的词——「氛围感」（Vibes）来形容。模型的「感觉」到底是什么？我们实际上并不清楚，直到我们真正坐下来体验它。在某种程度上，这是一个很好的特性，因为它意味着模型带有一种非常主观的、类似人类的方面。但也意味着你无法对其进行良好的回归测试。例如，当我们从Claude 3.5升级到3.7时，人们可能会说「Claude似乎更友好了，但也更笨了」，或者「Claude似乎更愿意回答我的问题了，但我希望它在创意写作方面表现更好」。这些东西很难评估。这又回到了数据问题。因此，我认为重要的是，既要有关于这些更软性技能的数据，也要有评估这些技能的方法。