Chat with Wiki - 请简单评价你和deepseek的差距

Answer

DeepSeek 与其他相关模型存在多方面的差异和特点：

训练成本方面：DeepSeek 的训练成本远高于传闻，总计约 13 亿美元，且定价低于实际成本，导致高额亏损。
竞争优势方面：以低成本开发顶级 AI 模型的 Mistral AI 被 DeepSeek 迅速赶超，DeepSeek 的“极简算力”模式可能削弱 Mistral 的竞争优势。
发展模式方面：DeepSeek 有点像 2022 年之前的 OpenAI 和 DeepMind，具有非营利性学术研究机构的特点。它没有像很多中国 AI 公司那样注重产品运营、营销和推出各种开发者项目，目前似乎不打算做生意。
技术突破方面：DeepSeek 发布的 V-3 以低成本实现了高性能，成为其发展的里程碑。与 OpenAI 相比，DeepSeek 致力于用低成本资源实现高效，达到里程碑的时间更短，且训练与推理并重。

Content generated by AI large model, please carefully verify (powered by aily)

References

?宝玉日报「1月31日」✨✨✨✨✨✨✨✨1⃣️?DeepSeek训练成本：训练成本远高于传闻的600万美元，总计约13亿美元。定价低于实际成本，导致高额亏损。Mixture-of-Expert方法降低计算需求，但大规模内存使用可能反而增加总成本。?总结：DeepSeek展示了AI领域的持续创新，但并未如传言般“颠覆”。?[https://x.com/dotey/status/1885368473364103402](https://x.com/dotey/status/1885368473364103402)?来源：[https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/](https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/)2⃣️??Mistral AI面临挑战：以低成本开发顶级AI模型，但被中国DeepSeek迅速赶超。曾获法国政府、英伟达、a16z等支持，估值达20亿美元。DeepSeek的“极简算力”模式可能削弱Mistral的竞争优势。?未来：或被科技巨头收购，或需要重新定位。?[https://x.com/dotey/status/1885226709152092573](https://x.com/dotey/status/1885226709152092573)3⃣️⚡扎克伯格：AI变革在即！

DeepSeek 的秘方是硅谷味儿的

如果非要给DeepSeek在全球的人工智能玩家里找一个对标的话，请允许我加上一个前置条件：DeepSeek有点像OpenAI和DeepMind——2022年之前的OpenAI和DeepMind。2022年之前的OpenAI和DeepMind是什么样子？非营利性学术研究机构。尽管已经被微软投资并转型为了营利性公司，但当时OpenAI的整体工作方式——至少是首席科学家Ilya Sustkever和联合创始人Andrej Kaparthy为代表的那群人——仍是非营利机构性质的，公司没有对外的正式产品，2020年公布的GPT-3是一个学术研究成果，而且还开源了。DeepMind尽管名义上是一家创业公司，但无论是它独立在伦敦存在的时期，还是被Google收购但尚未与Google Brain整合之前，都更像是一家研究机构的存在，无论AlphaGo还是AlphaFold，都是研究项目，而不是产品。DeepSeek有自己的“产品”么？不能说没有，毕竟普通用户也可以直接跟它的模型聊天，它还顺带手向开发者卖一卖低价的API。可是它连个移动APP都没有，看上去也没对产品做什么运营，不投放流量广告，也不搞社交媒体营销，也不给用户准备各种贴心的prompt模板。有个网站，普通人也可以用，就够了。光就这一点看DeepSeek就很不中国AI公司。在企业和开发者一侧，除了基于架构创新的成本下降让它狠狠砸了一锤子API的价格，也看不到它搞什么“加速计划”、“开发者大赛”、“产业生态基金”等等很多企业都搞的项目。这只能说明：现在它是真心不打算做生意。

DeepSeek 的秘方是硅谷味儿的

1.2023年11月，DeepSeek先后发布了两款开源模型DeepSeek Coder和DeepSeek LLM，只有少数人关注到了，而它们也在计算的效率和可扩展性上遇到了挑战。2.2024年5月，DeepSeek发布了V-2，以混合专家模型（MoE）和多头潜在注意力机制（MLA）技术的结合，大幅降低了模型训练特别是推理的成本，且性能可以在很多维度与世界顶尖模型相比较，它开始引发AI学术界和开发者的广泛讨论和推荐，这是DeepSeek走进更多人视野的开始。3.2024年12月，DeepSeek发布了V-3，以OpenAI、Anthropic和Google百分之一的成本，实现了模型性能超越同类开源模型Llama 3.1和Qwen 2.5，媲美闭源模型GPT-4o和Claude 3.5 Sonnet的成绩，引发轰动，成为世界大语言模型发展的里程碑。可以说，V-3就是DeepSeek的“GPT-3”时刻，一个里程碑。当然，DeepSeek与OpenAI在实现里程碑式跃迁的进程中区别在于——1.OpenAI在这一进程中一直致力于实现计算资源规模与成本的无限扩张，而DeepSeek则一直致力用尽可能低成本的计算资源实现更高的效率。2.OpenAI花了两年时间达到GPT-3时刻，而DeepSeek用了一年摘得了V-3的圣杯。3.OpenAI在GPT路线上一直聚焦在预训练的进步，而DeepSeek则是训练与推理并重——这也是全球模型技术发展趋势的要求。