Chat with Wiki - 2025年出的模型有哪些

Answer

以下是 2025 年可能出现的一些模型：

DeepSeek 发布了最新模型 V3 与 R1，采用混合专家（MoE）架构，V3 引入多头潜注意力（MLA），R1 通过强化学习激活推理能力。
字节跳动推出新技术 OmniHuman，利用单张图片和音频生成生动的视频。
OpenAI 发布新模型 o1，基于思维链和强化学习的新训练和推理方法，展现出明显超出 GPT-4 等传统模型的复杂推理能力。
苹果公司发布面向 iPhone、iPad 和 Mac 的个人智能化系统 Apple Intelligence，嵌入一个大约 30 亿参数的本地模型。

此外，2024 年的一些模型发展趋势也可能延续到 2025 年，如：

多模态能力的提升，包括视频生成模型的发展，如 OpenAI 的 Sora 引发业界轰动，带动一众模型公司追逐，到年底视频生成已成为各大模型公司的标配能力。
开源项目的发展，如 Meta 推出的 Llama 3.1 405B 版本，中国的开源项目 Qwen-2、DeepSeek 等在全球范围内赢得众多用户。
随着“蒸馏”和“量化”等技术的发展，模型的小型化和端侧化逐渐形成趋势，多家公司推出 40 亿参数以下的专业或端侧小模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

《[陈巍：DeepSeek是否有国运级的创新？从V3到R1的架构创新与误传的万字长文分析（上）](https://zhuanlan.zhihu.com/p/21208287743)》DeepSeek最新模型V3与R1采用混合专家（MoE）架构，显著提升计算效率，挑战OpenAI的闭源模型。V3引入多头潜注意力（MLA），将KV缓存压缩至新低，提升计算性能。R1则通过强化学习激活推理能力，首次验证无需监督微调即可实现推理。DeepSeek正以“国运级的创新”打破算力壁垒，开启大模型新时代。《[AI「视觉图灵」时代来了！字节OmniHuman，一张图配上音频，就能直接生成视频](https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w)》字节跳动推出的新技术OmniHuman，利用单张图片和音频生成生动的视频，突破了传统技术的局限。它通过多模态混合训练，解决了高质量数据稀缺的问题，实现了对任意尺寸图像的支持，生成自然的人物运动。《[甲子光年：2025 DeepSeek开启AI算法变革元年](https://waytoagi.feishu.cn/record/S5Jtrlw9neyXMccQ6CAcZsxHnXu)》DeepSeek的出现标志着算力效率拐点显现，其通过优化算法架构，显著提升了算力利用效率，打破了算力至上的传统认知。同时，AI基础大模型的参数量迎来拐点，2025年发布的大模型呈现低参数量特征，为本地化部署到AI终端运行提供了可能。此外，报告强调2025年是算法变革的元年，DeepSeek的推理模型开启了算法变革，其训练过程聚焦于强化学习，提升了模型的推理能力。

展望2025，AI行业有哪些创新机会？ | 峰瑞报告

2024年，OpenAI在大部分时间处于“被挑战”的状态。Anthropic发布的Claude 3.5 Sonnet和Google发布的Gemini 1.5等头部基座大模型一直在冲击和挑战OpenAI的GPT-4。直到接近Q3末，OpenAI发布新模型o1，其基于思维链和强化学习的新训练和推理方法，展现出来明显超出GPT-4等传统模型的复杂推理能力，才维持住了OpenAI业界第一的地位。“多模态”让人惊喜。2024年初，OpenAI的视频生成模型Sora横空出世，首次具备强大的视频生成能力，引发业界的轰动。5月份，OpenAI发布G PT-4o，其中“o”是“omni（全能）”的缩写，这个模型能够处理或生成文本、图像和音频等多种形式的数据，甚至还拥有逼真的实时语音对话能力。开源世界也不遑多让。比如Meta在7月推出Llama 3.1 405B版本，在推理、数学、多语言处理和长上下文任务上能够与GPT-4o和Claude 3.5 Sonnet等头部基座模型不相上下。可以说，Llama 3.1缩小了开放模型与封闭模型之间的差距，进一步挤压了全球非头部基座大模型的生存空间。此外，中国的开源项目，例如Qwen-2、DeepSeek等在全球范围内也赢得了众多用户。随着“蒸馏”和“量化”等技术的发展，模型的小型化和端侧化也逐渐形成一种趋势。多家公司推出4B（40亿）参数以下的专业或端侧小模型，在尽量保持性能的前提下，大幅降低对算力的需求。苹果公司在6月份发布面向iPhone、iPad和Mac的个人智能化系统Apple Intelligence，在上述设备中嵌入一个大约3B（30亿参数）的本地模型，提供强大的生成式AI功能。

码观 | 共识与非共识：从模型到应用，2024 AI 趋势回首与展望

多模态能力跃迁视频生成模型破局Transformer架构无往而不利在o系列模型之外，今年最大模型层最大的进展，要数视频生成模型。年初的Sora演示石破天惊，带动一众模型公司进行追逐。到年底，从字节的即梦、快手的可灵，到Google的Veo2，视频生成已从天方夜谭变为各大模型公司的标配能力。这一突破源于Sora巧妙结合了扩散模型(Diffusion Model)和Transformer架构，开创性地实践了DiT(Diffusion Transformer)架构，突破了传统CNN的局限：如果说传统的U-Net架构像是“局部的精雕细琢”，依赖于感受野逐层扩大来理解局部特征。那么融入Transformer的新架构则像是具备“全局视野”的艺术家，能够同时关注和协调画面的每个细节。视频模型的突破，再次印证了Transformer架构的Scaling Law——足够多的数据和足够好的算法模型，就能突破瓶颈。一年过去，Sora类的视频模型已经不再稀奇，人们关注视频模型的下一步：首先是物理一致性问题。这点在真正的世界模型能够做好之前，不会有真正的解法。就像大语言模型的“幻觉“问题一样，视频生成模型与现实世界的不一致性似乎难以完全避免。展望2025年，关键或许不在于完全消除这种不一致，而是找到更好的方式与之共存，就像我们已经学会了用RAG等技术来控制语言模型的幻觉一样。