以下是 2024 年人工智能行业报告的相关内容:
在 2024 年,国内外 AI 企业的竞争达到白热化阶段。
国外方面:
国内方面:
需要注意的是,报告中对中国的 AI 生成图、生成视频的工具未展开详细说明,但这并不代表中国有关该功能的 AI 工具落后于国外。
Google DeepMind和OpenAI都给我们展示了强大的文本到视频扩散模型的预览。但访问仍然受到严格限制,而且他们也没有提供很多技术细节。Meta更进一步,将音频加入其中,Movie Gen的核心是一个30亿视频生成和一个13亿音频生成模型,可以分别以每秒16帧的速度生成16秒的视频,并以每秒45秒的速度生成音频片段。这些模型利用了文本到图像和文本到视频任务的联合优化技术,以及为任意长度的视频生成连贯音频的新颖扩展方法。**小编说明:**在这份报告中,原作者并没有对中国的AI生成图,生成视频的工具展开详细说明,只说明中国可灵与国外AI生成工具在竞争中。但着这并不代表中国有关该功能AI工具落后于国外。在2024年,国内涌现类似可灵、即梦、智谱清影等等一系列AI生成视频工具,其生成结果甚至远超国外,详情大家可以查看小编之前实测的[8款国内外免费AI生成视频工具对比实测!我们真的可以做到“一人搞定一部影视作品“吗?](https://link.juejin.cn/?target=https%3A%2F%2Flink.zhihu.com%2F%3Ftarget%3Dhttp%253A%2F%2Fmp.weixin.qq.com%2Fs%253F__biz%253DMzkyNTI3NTY1Ng%253D%253D%2526mid%253D2247510194%2526idx%253D1%2526sn%253D5c00bae4b0830b35881ff977d1575714%2526chksm%253Dc1cbebd5f6bc62c3607525e1e6c78384bbfde23bcaea339121db6004414ee1fe0439c9530cea%2526scene%253D21%2523wechat_redirect)
Llama 3.1是迄今为止最大版本,其在推理、数学、多语言和长上下文任务中能够与GPT-4相抗衡。这标志首次开放模型缩小与专有前沿的差距。上图为人们关于Llama 3.1 405B与GPT,Claude的评估,win:胜Tie:平Loss:输借助AlphaGeometry,符号推理引擎得以拯救谷歌DeepMind与纽约大学团队使用符号引擎生成了数百万条合成定理和证明,利用这些数据从零开始训练了一个语言模型。AlphaGeometry在语言模型提出新构造,与符号引擎执行推理交替进行,直至找到解决方案。令人印象深刻的是,AlphaGeometry在奥林匹克级几何问题基准测试中解决了30题中的25题,接近人类国际数学奥林匹克金牌得主的表现。第二好的AI表现仅得10分。它还展示了泛化能力——例如,发现2004年国际数学奥林匹克问题中的一个具体细节对于证明并非必要“尽管受到制裁,中国LLMs在排行榜上风头正劲”由DeepSeek、零一万物、知谱AI和阿里巴巴开发的模型在LMSYS排行榜上取得了优异的成绩,尤其在数学和编程方面表现尤为出色。中国的最强模型与美国生产的第二强前沿模型竞争,同时在某些子任务上挑战了SOTA。中国模型更能优先考虑计算效率,以弥补GPU访问的限制,并学会比美国同行更有效地利用资源。中国模型各有优势。例如,DeepSeek在推理过程中通过多头隐式注意力减少内存需求,并且改进了MoE架构。同时,零一万物更加关注数据集的建设而不是建筑创新。由于在像Common Crawl这样的流行存储库中相对缺乏数据,因此它更加关注建立强大的中文数据集来弥补不足。
**首先让我们看看,今年国外AI企业做了哪些引得全网沸腾?**小编选取报告中一些事例进行展现~期待已久的OpenAI草莓终于落地,加倍扩大推理计算规模通过将计算从预训练和后训练转移到推理,o1以链式思维(COT)的方式逐步处理复杂的提示,采用强化学习(RL)来优化COT及其使用的策略。这使得解决多层次的数学、科学和编码问题成为可能,这些问题由于下一个词预测的固有限制,历史上大型语言模型(LLMs)难以应对。OpenAI报告称,与4o相比,在需要大量推理的基准测试中取得了显著改进,尤其是在AIME 2024(竞赛数学)上,得分高达83.83,而4o只有13.4。OpenAI在其API文档中明确指出,o1并不是4o的直接替代品,并且它并不是需要持续快速响应、图像输入或函数调用任务的最佳模型。然而,这种能力的成本很高:o1-preview的100万输入标记费用为15美元,而100万输出标记则需60美元。这使其比GPT-4o贵3到4倍Llama 3家族的出现,关闭了开放和封闭模型之间的差距在四月,Meta推出Llama 3家族,七月推出3.1版本,九月推出3.2版本。Meta使用令人难以置信的15T令牌来训练这个家族。虽然这超过了“Chinchilla-最佳”的培训计算量,但他们发现,无论是8B还是70B模型,在15T之前都以对数线性的方式改善。Llama 3.1 405B是在超过16000个H100 GPU上训练的,这是第一个在这一规模上进行训练的Llama模型。在九月,Meta推出了Llama 3.2,它包含了11B和90B的VLM(Llama多模态的首次亮相)。