目前对于“最好的代码模型”没有一个绝对的定论。以下为您介绍一些常见且受到关注的代码模型:
需要注意的是,最好的模型将来自优秀的人类数据和合成数据的结合,同时对于模型的评估还涉及到如“氛围感”等较主观和难以量化的方面。
1.Open Code Model papers choose from[DeepSeek-Coder](https://ar5iv.labs.arxiv.org/html/2401.14196?_immersive_translate_auto_translate=1),[Qwen2.5-Coder](https://arxiv.org/html/2409.12186?_immersive_translate_auto_translate=1),or CodeLlama.Many regard[3.5 Sonnet as the best code model](https://www.latent.space/p/claude-sonnet)but it has no paper.开放代码模型论文——从DeepSeek-Coder、Qwen2.5-Coder或CodeLlama中选择。许多人认为3.5 Sonnet是最好的代码模型,但它没有论文。[DeepSeek-Coder When the Large Language Model Meets Programming--The Rise of Code Intelligence.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/XPQjbIRFCoKgH9xYUdMc0DFEnwb?allow_redirect=1)[Qwen2.5-Coder Technical Report.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/Qlpjb2OrnopSfhxBaqUcMcgYnod?allow_redirect=1)[Code Llama Open Foundation Models for Code.pdf](https://bytedance.feishu.cn/space/api/box/stream/download/all/K210bNcv6or9qSxl7BJcaVdjnJe?allow_redirect=1)
|模型|介绍|代码链接|模型下载||-|-|-|-||CodeGeeX2-6B|CodeGeeX2是多语言代码生成模型[CodeGeeX](https://github.com/THUDM/CodeGeeX)([KDD’23](https://arxiv.org/abs/2303.17568))的第二代模型。不同于一代CodeGeeX,CodeGeeX2是基于[ChatGLM2](https://github.com/THUDM/ChatGLM2-6B)架构加入代码预训练实现,得益于ChatGLM2的更优性能,CodeGeeX2在多项指标上取得性能提升(+107%>CodeGeeX;仅60亿参数即超过150亿参数的StarCoder-15B近10%)。|[CodeGeeX2](https://github.com/THUDM/CodeGeeX2)|[Huggingface](https://huggingface.co/THUDM/codegeex2-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/codegeex2-6b/summary)||CodeGeeX2-6B-int4|CodeGeeX2的量化版本||[Huggingface](https://huggingface.co/THUDM/codegeex2-6b-int4)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/CodeGeeX2-6B-int4/summary)||CodeGeeX-13B|第一代CodeGeeX,具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX采用华为MindSpore框架实现,在鹏城实验室“鹏城云脑II”中的192个节点(共1536个国产[昇腾910 AI处理器](https://e.huawei.com/cn/products/servers/ascend))上训练而成。|[CodeGeeX](https://github.com/THUDM/CodeGeeX)|[CodeGeeX下载](https://models.aminer.cn/codegeex/download/request)|
Claude这周一直在玩宝可梦,这对于我们的研究和工程团队来说,是一个有趣但有点分散注意力的消遣。大家都在关注Claude玩宝可梦的直播。我认为游戏是一个有趣的例子,你可以想象在同一个游戏中进行许多不同的运行,并设置一些约束和规则。但当问题空间不如「你是否走出了常磐森林?」(我没玩过宝可梦,只是看直播学的)那样明确时,情况就会变得更加复杂。但能够采用黄金路径,并综合各种方法仍然很重要,这样你才能思考模型如何在不确定性中进步。所以我认为这绝对需要混合方法,最好的模型将来自优秀的人类数据和合成数据的结合。例如,对于代码模型来说,需要有良好的基础代码和示例,但也要能够探索各种各样的路径。另一个仍然被低估的部分是,如何衡量和评估模型的性格,以及如何获取性格数据。我用一个非常宽泛的词——「氛围感」(Vibes)来形容。模型的「感觉」到底是什么?我们实际上并不清楚,直到我们真正坐下来体验它。在某种程度上,这是一个很好的特性,因为它意味着模型带有一种非常主观的、类似人类的方面。但也意味着你无法对其进行良好的回归测试。例如,当我们从Claude 3.5升级到3.7时,人们可能会说「Claude似乎更友好了,但也更笨了」,或者「Claude似乎更愿意回答我的问题了,但我希望它在创意写作方面表现更好」。这些东西很难评估。这又回到了数据问题。因此,我认为重要的是,既要有关于这些更软性技能的数据,也要有评估这些技能的方法。