Chat with Wiki - deepseek的技术路线是什么样的

Answer

DeepSeek 从一开始就选择了与国内诸多大模型新秀不同的技术路线。它走的是全球开源社区路线，分享最直接的模型、研究方法和成果，吸引反馈，再迭代优化，自我进益。开源十分彻底，从模型权重、数据集到预训练方法都悉数公开，高质量的论文也是开源的一部分。

DeepSeek 先后发布了多款开源模型：

2023 年 11 月，发布 DeepSeek Coder 和 DeepSeek LLM，但在计算的效率和可扩展性上遇到挑战。
2024 年 5 月，发布 V-2，以混合专家模型（MoE）和多头潜在注意力机制（MLA）技术的结合，大幅降低了模型训练特别是推理的成本，开始引发广泛讨论和推荐。
2024 年 12 月，发布 V-3，以 OpenAI、Anthropic 和 Google 百分之一的成本，实现了模型性能超越同类开源模型 Llama 3.1 和 Qwen 2.5，媲美闭源模型 GPT-4o 和 Claude 3.5 Sonnet 的成绩，引发轰动，成为世界大语言模型发展的里程碑。

DeepSeek 与 OpenAI 在实现里程碑式跃迁的进程中有以下区别：

OpenAI 致力于实现计算资源规模与成本的无限扩张，而 DeepSeek 一直致力用尽可能低成本的计算资源实现更高的效率。
OpenAI 花了两年时间达到 GPT-3 时刻，而 DeepSeek 用了一年摘得了 V-3 的圣杯。
OpenAI 在 GPT 路线上一直聚焦在预训练的进步，而 DeepSeek 则是训练与推理并重。

DeepSeek 从隐秘低调到备受关注，以及它从 Coder 到 V-3 模型的三次迭代，与 OpenAI 从 GPT-1 到 GPT-3 的升级节奏和引发的反响非常接近。

Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek 的秘方是硅谷味儿的

2023年初，科技媒体The Information进行过一轮中国可能出现哪些人工智能明星创业公司的盘点。已经做出了一些成绩的智谱和Minimax在列，刚刚创建的百川智能、零一万物和光年之外也被提及，该文章还特别提及了当时正准备再度创业尚名不见经传的杨植麟。这里面没有Deepseek。至少一年半之前，没人真的把DeepSeek当成AI的圈内人。尽管当时业界开始流传DeepSeek的母公司——从事私募量化技术的幻方握有数量丰沛的英伟达高性能显卡，仍没太多人相信它自己下场做大模型会有水花。现在，人人都在谈论DeepSeek，而且走的又是“墙外开花墙内香”的老路。可以认为，从第一天开始，DeepSeek与国内的诸多大模型新秀，选择的就不是同一个战场。它不拿融资（至少一开始不用拿），不用争抢大模型四小龙六小虎的座次，不比国内的舆论声势（唯一接受暗涌的采访，目的大概是招聘那些最热血的聪明的科学家），不搞产品投放投流。它选择的是与研究机构的本质最匹配的路径——走全球开源社区，分享最直接的模型、研究方法和成果，吸引反馈，再迭代优化，自我进益。开源社区迄今仍是AI学术研究、分享和讨论最热烈、充分、自由和无国界的地方，也是AI领域最不“内卷”的地方。DeepSeek从第一天就开源，应该是深思熟虑的。开源就要真开源，开得彻底，从模型权重、到数据集，再到预训练方法，悉数公开，而高质量的论文也是开源的一部分。年轻聪明的研究人员在开源社区的亮相、分享和活跃具有高能见度。看见他们的人，并不乏一些全球AI领域最重要的推动者。

DeepSeek 的秘方是硅谷味儿的

1.2023年11月，DeepSeek先后发布了两款开源模型DeepSeek Coder和DeepSeek LLM，只有少数人关注到了，而它们也在计算的效率和可扩展性上遇到了挑战。2.2024年5月，DeepSeek发布了V-2，以混合专家模型（MoE）和多头潜在注意力机制（MLA）技术的结合，大幅降低了模型训练特别是推理的成本，且性能可以在很多维度与世界顶尖模型相比较，它开始引发AI学术界和开发者的广泛讨论和推荐，这是DeepSeek走进更多人视野的开始。3.2024年12月，DeepSeek发布了V-3，以OpenAI、Anthropic和Google百分之一的成本，实现了模型性能超越同类开源模型Llama 3.1和Qwen 2.5，媲美闭源模型GPT-4o和Claude 3.5 Sonnet的成绩，引发轰动，成为世界大语言模型发展的里程碑。可以说，V-3就是DeepSeek的“GPT-3”时刻，一个里程碑。当然，DeepSeek与OpenAI在实现里程碑式跃迁的进程中区别在于——1.OpenAI在这一进程中一直致力于实现计算资源规模与成本的无限扩张，而DeepSeek则一直致力用尽可能低成本的计算资源实现更高的效率。2.OpenAI花了两年时间达到GPT-3时刻，而DeepSeek用了一年摘得了V-3的圣杯。3.OpenAI在GPT路线上一直聚焦在预训练的进步，而DeepSeek则是训练与推理并重——这也是全球模型技术发展趋势的要求。

DeepSeek 的秘方是硅谷味儿的

V-3模型引发了破圈的国际反应，CNBC的报道已经把V-3及其背后的DeepSeek视作中国AI迎头赶上美国的标志。如果仔细观察的话，并不难发现：DeepSeek从隐秘低调到备受关注，以及它从Coder到V-3模型的三次迭代，与OpenAI从GPT-1到GPT-3的升级节奏和它引发的反响，是非常接近的。我们先看看OpenAI——1.2018年OpenAI放出了GPT-1模型，是它第一个基于Transformer架构的预训练模型，证明了语言模型是一个有效的预训练目标，但质量和多样性有限，引发了一定的学界关注，但整体反应平常。2.2019年早些时候，OpenAI推出GPT-2，生成文本的质量和多样性大幅跃迁，基本验证了语言模型这条路的有效性，也引发了AI领域广泛的讨论和关注。3.2020年6月，OpenAI发布GPT-3，以1750亿参数成为当时世界上最大的语言模型，除了生成文本内容，还能进行翻译、问答和持续对话和思考，成为了生成式人工智能发展的里程碑。即便如此，GPT-3仍然是一个实验室项目。让我们再看DeepSeek——