以下是 2025 年可能出现的一些模型:
此外,2024 年的一些模型发展趋势也可能延续到 2025 年,如:
《[陈巍:DeepSeek是否有国运级的创新?从V3到R1的架构创新与误传的万字长文分析(上)](https://zhuanlan.zhihu.com/p/21208287743)》DeepSeek最新模型V3与R1采用混合专家(MoE)架构,显著提升计算效率,挑战OpenAI的闭源模型。V3引入多头潜注意力(MLA),将KV缓存压缩至新低,提升计算性能。R1则通过强化学习激活推理能力,首次验证无需监督微调即可实现推理。DeepSeek正以“国运级的创新”打破算力壁垒,开启大模型新时代。《[AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频](https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w)》字节跳动推出的新技术OmniHuman,利用单张图片和音频生成生动的视频,突破了传统技术的局限。它通过多模态混合训练,解决了高质量数据稀缺的问题,实现了对任意尺寸图像的支持,生成自然的人物运动。《[甲子光年:2025 DeepSeek开启AI算法变革元年](https://waytoagi.feishu.cn/record/S5Jtrlw9neyXMccQ6CAcZsxHnXu)》DeepSeek的出现标志着算力效率拐点显现,其通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知。同时,AI基础大模型的参数量迎来拐点,2025年发布的大模型呈现低参数量特征,为本地化部署到AI终端运行提供了可能。此外,报告强调2025年是算法变革的元年,DeepSeek的推理模型开启了算法变革,其训练过程聚焦于强化学习,提升了模型的推理能力。
2024年,OpenAI在大部分时间处于“被挑战”的状态。Anthropic发布的Claude 3.5 Sonnet和Google发布的Gemini 1.5等头部基座大模型一直在冲击和挑战OpenAI的GPT-4。直到接近Q3末,OpenAI发布新模型o1,其基于思维链和强化学习的新训练和推理方法,展现出来明显超出GPT-4等传统模型的复杂推理能力,才维持住了OpenAI业界第一的地位。“多模态”让人惊喜。2024年初,OpenAI的视频生成模型Sora横空出世,首次具备强大的视频生成能力,引发业界的轰动。5月份,OpenAI发布G PT-4o,其中“o”是“omni(全能)”的缩写,这个模型能够处理或生成文本、图像和音频等多种形式的数据,甚至还拥有逼真的实时语音对话能力。开源世界也不遑多让。比如Meta在7月推出Llama 3.1 405B版本,在推理、数学、多语言处理和长上下文任务上能够与GPT-4o和Claude 3.5 Sonnet等头部基座模型不相上下。可以说,Llama 3.1缩小了开放模型与封闭模型之间的差距,进一步挤压了全球非头部基座大模型的生存空间。此外,中国的开源项目,例如Qwen-2、DeepSeek等在全球范围内也赢得了众多用户。随着“蒸馏”和“量化”等技术的发展,模型的小型化和端侧化也逐渐形成一种趋势。多家公司推出4B(40亿)参数以下的专业或端侧小模型,在尽量保持性能的前提下,大幅降低对算力的需求。苹果公司在6月份发布面向iPhone、iPad和Mac的个人智能化系统Apple Intelligence,在上述设备中嵌入一个大约3B(30亿参数)的本地模型,提供强大的生成式AI功能。
多模态能力跃迁视频生成模型破局Transformer架构无往而不利在o系列模型之外,今年最大模型层最大的进展,要数视频生成模型。年初的Sora演示石破天惊,带动一众模型公司进行追逐。到年底,从字节的即梦、快手的可灵,到Google的Veo2,视频生成已从天方夜谭变为各大模型公司的标配能力。这一突破源于Sora巧妙结合了扩散模型(Diffusion Model)和Transformer架构,开创性地实践了DiT(Diffusion Transformer)架构,突破了传统CNN的局限:如果说传统的U-Net架构像是“局部的精雕细琢”,依赖于感受野逐层扩大来理解局部特征。那么融入Transformer的新架构则像是具备“全局视野”的艺术家,能够同时关注和协调画面的每个细节。视频模型的突破,再次印证了Transformer架构的Scaling Law——足够多的数据和足够好的算法模型,就能突破瓶颈。一年过去,Sora类的视频模型已经不再稀奇,人们关注视频模型的下一步:首先是物理一致性问题。这点在真正的世界模型能够做好之前,不会有真正的解法。就像大语言模型的“幻觉“问题一样,视频生成模型与现实世界的不一致性似乎难以完全避免。展望2025年,关键或许不在于完全消除这种不一致,而是找到更好的方式与之共存,就像我们已经学会了用RAG等技术来控制语言模型的幻觉一样。