DeepSeek 与其他相关模型存在多方面的差异和特点:
🫧宝玉日报「1月31日」✨✨✨✨✨✨✨✨1⃣️💰DeepSeek训练成本:训练成本远高于传闻的600万美元,总计约13亿美元。定价低于实际成本,导致高额亏损。Mixture-of-Expert方法降低计算需求,但大规模内存使用可能反而增加总成本。🥜总结:DeepSeek展示了AI领域的持续创新,但并未如传言般“颠覆”。🔗[https://x.com/dotey/status/1885368473364103402](https://x.com/dotey/status/1885368473364103402)🔗来源:[https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/](https://www.linkedin.com/posts/gillesbackhus_i-want-to-share-a-few-condensed-things-about-activity-7291076837080723457-JSVH/)2⃣️🇫🇷Mistral AI面临挑战:以低成本开发顶级AI模型,但被中国DeepSeek迅速赶超。曾获法国政府、英伟达、a16z等支持,估值达20亿美元。DeepSeek的“极简算力”模式可能削弱Mistral的竞争优势。🔮未来:或被科技巨头收购,或需要重新定位。🔗[https://x.com/dotey/status/1885226709152092573](https://x.com/dotey/status/1885226709152092573)3⃣️⚡扎克伯格:AI变革在即!
如果非要给DeepSeek在全球的人工智能玩家里找一个对标的话,请允许我加上一个前置条件:DeepSeek有点像OpenAI和DeepMind——2022年之前的OpenAI和DeepMind。2022年之前的OpenAI和DeepMind是什么样子?非营利性学术研究机构。尽管已经被微软投资并转型为了营利性公司,但当时OpenAI的整体工作方式——至少是首席科学家Ilya Sustkever和联合创始人Andrej Kaparthy为代表的那群人——仍是非营利机构性质的,公司没有对外的正式产品,2020年公布的GPT-3是一个学术研究成果,而且还开源了。DeepMind尽管名义上是一家创业公司,但无论是它独立在伦敦存在的时期,还是被Google收购但尚未与Google Brain整合之前,都更像是一家研究机构的存在,无论AlphaGo还是AlphaFold,都是研究项目,而不是产品。DeepSeek有自己的“产品”么?不能说没有,毕竟普通用户也可以直接跟它的模型聊天,它还顺带手向开发者卖一卖低价的API。可是它连个移动APP都没有,看上去也没对产品做什么运营,不投放流量广告,也不搞社交媒体营销,也不给用户准备各种贴心的prompt模板。有个网站,普通人也可以用,就够了。光就这一点看DeepSeek就很不中国AI公司。在企业和开发者一侧,除了基于架构创新的成本下降让它狠狠砸了一锤子API的价格,也看不到它搞什么“加速计划”、“开发者大赛”、“产业生态基金”等等很多企业都搞的项目。这只能说明:现在它是真心不打算做生意。
1.2023年11月,DeepSeek先后发布了两款开源模型DeepSeek Coder和DeepSeek LLM,只有少数人关注到了,而它们也在计算的效率和可扩展性上遇到了挑战。2.2024年5月,DeepSeek发布了V-2,以混合专家模型(MoE)和多头潜在注意力机制(MLA)技术的结合,大幅降低了模型训练特别是推理的成本,且性能可以在很多维度与世界顶尖模型相比较,它开始引发AI学术界和开发者的广泛讨论和推荐,这是DeepSeek走进更多人视野的开始。3.2024年12月,DeepSeek发布了V-3,以OpenAI、Anthropic和Google百分之一的成本,实现了模型性能超越同类开源模型Llama 3.1和Qwen 2.5,媲美闭源模型GPT-4o和Claude 3.5 Sonnet的成绩,引发轰动,成为世界大语言模型发展的里程碑。可以说,V-3就是DeepSeek的“GPT-3”时刻,一个里程碑。当然,DeepSeek与OpenAI在实现里程碑式跃迁的进程中区别在于——1.OpenAI在这一进程中一直致力于实现计算资源规模与成本的无限扩张,而DeepSeek则一直致力用尽可能低成本的计算资源实现更高的效率。2.OpenAI花了两年时间达到GPT-3时刻,而DeepSeek用了一年摘得了V-3的圣杯。3.OpenAI在GPT路线上一直聚焦在预训练的进步,而DeepSeek则是训练与推理并重——这也是全球模型技术发展趋势的要求。