国内写代码比较好用的模型除了 DeepSeek 外,还有零一万物、知谱 AI 和阿里巴巴开发的模型,它们在 LMSYS 排行榜上取得了优异成绩,尤其在数学和编程方面表现出色。此外,国产开源模型 DeepSeek-V3 也具备出色的性能,其性能接近顶尖闭源模型 Claude 3.5-Sonnet,在知识、长文本和数学任务上均有显著提升,生成速度可达每秒 60 个令牌。
Llama 3.1是迄今为止最大版本,其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。上图为人们关于Llama 3.1 405B与GPT,Claude的评估,win:胜Tie:平Loss:输借助AlphaGeometry,符号推理引擎得以拯救谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明,利用这些数据从零开始训练了一个语言模型。AlphaGeometry在语言模型提出新构造,与符号引擎执行推理交替进行,直至找到解决方案。令人印象深刻的是,AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题,接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。它还展示了泛化能力——例如,发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要“尽管受到制裁,中国LLMs在排行榜上风头正劲”由DeepSeek、零一万物、知谱AI和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩,尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争,同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率,以弥补GPU访问的限制,并学会比美国同行更有效地利用资源。中国模型各有优势。例如,DeepSeek在推理过程中通过多头隐式注意力减少内存需求,并且改进了MoE架构。同时,零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据,因此它更加关注建立强大的中文数据集来弥补不足。
聪明的年轻AI研究人员+研究机构的氛围(配上大厂的package)+开源社区的分享和交流,提高了DeepSeek在全球AI领域影响力和声望。对一家以产生AI研究成果而非发布商业化产品为主要目标的机构而言,Hugging Face和Reddit就是最好的发布会会场,数据集和代码库就是最好的demo,论文就是最好的新闻稿。DeepSeek基本就是这么做的,而且做得很讲究。所以即便DeepSeek的研究人员和CEO鲜少接受媒体采访,也几乎从不在论坛和活动上分享技术经验和洞察,但你不能说它没做营销。反之,以证明中国AI原创研究可以引领全球趋势、招聘最聪明的研究人员的目的来说,DeepSeek的“营销”是极其精准和有效的。这里值得提一句,过去的一年中国的开源大模型主要玩家确实在全球AI研究和产品方面赢得了不少尊敬。一个越来越普遍的看法是:比起美国和欧洲的一些开源模型,中国的开源大模型在开源程度上更为彻底,更容易被研究人员和开发者直接拿过来上手研究或优化自己的模型。DeepSeek就是一个典型代表,除了DeepSeek,阿里巴巴的通义(Qwen)也被AI研究领域普遍认为开源态度较为真诚,面壁智能的小模型Mini-CPM-Llama3-V 2.5因为被斯坦福本科生团队直接套壳也意外走红了一把。所以很有意思:国际AI界特别是硅谷认为中国大模型的代表玩家是DeepSeek和阿里巴巴,而我们自己觉得是豆包、可灵和所谓的AI六小龙。客观地说,就国际AI界特别是硅谷能公正、积极地看待中国AI创新能力和对全球社区的贡献方面,DeepSeek和阿里巴巴们做得更多。开源在任何时候都是一件正确的事。
《[码观|共识与非共识:从模型到应用,2024 AI趋势回首与展望](https://waytoagi.feishu.cn/wiki/DgUZwz4a9imlUhkcyC1c21XVnPd)》《[DeepMind最新研究:逆向思维训练LLM可大幅提升AI推理能力](https://mp.weixin.qq.com/s/xERMU0rR4IvSUerO9oAjkw)》DeepMind最新研究表明,逆向思维训练可以显著提升大语言模型(LLM)的推理能力。研究通过构建逆向推理数据集,并利用知识蒸馏方法指导模型训练,验证了逆向思维在多种推理任务中的有效性。文章指出,结合正向和逆向问题能够提高模型性能,尤其在中等难度问题上表现最佳。这一发现为未来LLM研究提供了新的思路。《[国产开源模型,代码能力比肩Claude,DeepSeek-V3正式发布](https://mp.weixin.qq.com/s/w8pUvP21WE2iDnKIqMBDjQ)》DeepSeek发布了其开源模型DeepSeek-V3,具备671B参数,性能接近顶尖闭源模型Claude 3.5-Sonnet。相比前代,DeepSeek-V3在知识、长文本和数学任务上均有显著提升,并且生成速度提升至每秒60个令牌。API服务定价调整为每百万输入tokens 0.5元,优惠期内维持0.1元。模型支持FP8训练并已开源权重,旨在缩小开源与闭源模型之间的能力差距,未来将继续扩展功能。