与知识库对话 - deepseek相比国内其他的AI，特点有哪些

回答

DeepSeek 相比国内其他 AI 具有以下特点：

在推理过程中通过多头隐式注意力减少内存需求，并且改进了 MoE 架构。
在 LMSYS 排行榜上取得优异成绩，尤其在数学和编程方面表现出色。
训练成本远高于传闻，约 13 亿美元，定价低于实际成本导致高额亏损。
其最好的“产品”除了模型，还有高质量的论文，如 V-2 和 V-3 发布时的对应论文得到全球研究者的仔细阅读、分享、引用和大力推荐。
中国的最强模型之一，能与美国生产的第二强前沿模型竞争，在某些子任务上挑战了 SOTA，且更能优先考虑计算效率，以弥补 GPU 访问的限制，并学会比美国同行更有效地利用资源。

同时，DeepSeek 区别于大多数中国的 AI 创业公司，更像是一家研究机构。它有钱，有不输于巨头、远多于创业公司的弹药。但并非所有巨头都愿意有一个自己的 DeepMind。此外，DeepSeek 的“极简算力”模式使其在竞争中具有一定优势，如迅速赶超了法国的 Mistral AI。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

2024人工智能报告｜一文迅速了解今年的AI界都发生了什么？

Llama 3.1是迄今为止最大版本，其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。上图为人们关于Llama 3.1 405B与GPT,Claude的评估，win:胜Tie:平Loss：输借助AlphaGeometry，符号推理引擎得以拯救谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明，利用这些数据从零开始训练了一个语言模型。AlphaGeometry在语言模型提出新构造，与符号引擎执行推理交替进行，直至找到解决方案。令人印象深刻的是，AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题，接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。它还展示了泛化能力——例如，发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要“尽管受到制裁，中国LLMs在排行榜上风头正劲”由DeepSeek、零一万物、知谱AI和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩，尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争，同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率，以弥补GPU访问的限制，并学会比美国同行更有效地利用资源。中国模型各有优势。例如，DeepSeek在推理过程中通过多头隐式注意力减少内存需求，并且改进了MoE架构。同时，零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据，因此它更加关注建立强大的中文数据集来弥补不足。

DeepSeek 的秘方是硅谷味儿的

这也是DeepSeek区别于大多数中国的AI创业公司，反而更像是一家研究机构的地方。这轮AI创业的创始人基本都是科学家和研究人员，但他们拿了VC和PE一轮又一轮的钱，就不能随心所欲地搞研究和发paper，而必须聚焦产品化和商业化（这很可能不是他们最擅长的事）。科技巨头养得起研究机构和科学家，但一旦要求研究成果迅速应用于产品和商业，团队也会变得更复杂，而不再有纯研究人员的简单和清澈。美国的一些科技巨头有不受商业目标干扰的研究机构，但时间过久，又难免沾染了学术界论资排辈的门阀气息。都是由最聪明的年轻人组成的商业公司的研究机构，只在关键的几个时间点出现过——几年前的OpenAI和DeepMind，以及现在的DeepSeek。一个证据就是：DeepSeek最好的“产品”除了模型，还有它的论文。无论是V-2还是V-3的发布，DeepSeek的两篇对应论文都得到了来自全球研究者的仔细阅读、分享、引用和大力推荐。相比之下，GPT-4发布之后OpenAI公布的论文几乎不能叫做论文。这年头做模型的都在抢在各种benchmark上拿名次，注重论文质量的已经不多了。而一篇详尽、规范和实验细节丰富的论文，仍然能获得业界额外的尊重。当然这件事的一个重要前提是：DeepSeek有钱，有不输于巨头、远多于创业公司的弹药。但并不是所有巨头都愿意有一个自己的DeepMind。

宝玉日报

?宝玉日报「1月31日」✨✨✨✨✨✨✨✨1⃣️?DeepSeek训练成本：训练成本远高于传闻的600万美元，总计约13亿美元。定价低于实际成本，导致高额亏损。Mixture-of-Expert方法降低计算需求，但大规模内存使用可能反而增加总成本。?总结：DeepSeek展示了AI领域的持续创新，但并未如传言般“颠覆”。?[https://x.com/dotey/status/1885368473364103402](https://x.com/dotey/status/1885368473364103402)?来源：[https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/](https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/)2⃣️??Mistral AI面临挑战：以低成本开发顶级AI模型，但被中国DeepSeek迅速赶超。曾获法国政府、英伟达、a16z等支持，估值达20亿美元。DeepSeek的“极简算力”模式可能削弱Mistral的竞争优势。?未来：或被科技巨头收购，或需要重新定位。?[https://x.com/dotey/status/1885226709152092573](https://x.com/dotey/status/1885226709152092573)3⃣️⚡扎克伯格：AI变革在即！