以下是一些新的预测模型:
围绕Stable Diffusion和Midjourney等基础模型的兴奋和关注正在产生惊人的估值,但新研究的不断涌现确保新模型将随着新技术的完善而更替。考虑到三个流行的生成性AI模型:Dall-E、Midjourney和Stable Diffusion的网站搜索流量。每个新模型都会有它在聚光灯下的时刻。一种替代的方法可能是构建与特定行业相符的工具套件,这些工具专注于满足给定行业的生成性AI需求,对特定受众有深入的理解,并能丰富地集成到现有的生产流程中(例如游戏的Unity或Unreal)。一个很好的例子是[Runway](https://runwayml.com/),它针对视频创作者的需求,提供AI辅助工具,如视频编辑、绿幕移除、图像修复和运动跟踪。这样的工具可以构建并变现特定的受众,并随着时间的推移添加新的模型。我们尚未看到针对游戏领域的类似Runway的套件出现,但我们知道这是一个正在积极开发的领域。1.法律挑战即将来临所有这些生成性AI模型的共同点是,它们都是使用大量的内容数据集进行训练的,这些数据集通常是通过爬取互联网本身获得的。例如,Stable Diffusion是在从网络上抓取的超过50亿的图像/标题对上进行训练的。目前,这些模型声称它们是根据“合理使用”版权原则运作的,但这一论点尚未在法庭上得到明确的检验。似乎很明显,[法律挑战即将到来](https://venturebeat.com/ai/why-generative-ai-legal-battles-are-brewing-the-ai-beat/),这可能会改变生成性AI的格局。
除此以外,在Sora模型发布的当天,Meta推出了一个全新的无监督「视频预测模型」——V-JEPA,与JEPA一脉相承。V-JEPA和Sora之间的主要区别之一是它们各自的学习目标,以及这些目标可能对其潜在表示产生的下游影响。Sora接受了像素空间中帧重建的训练,而V-JEPA接受了潜在空间中特征预测的训练。在LeCun看来,像素级生成目标不足以引发对世界中的规划和行动有用的抽象表示。综合来看,人们对世界模型的理解略有不同。在强化学习(RL)中,世界模型主要关注以智能体为中心的预测,以及基于智能体行为对环境状态的模拟。在Yann LeCun对自主机器智能的构想中,世界模型同样关注以智能体为中心的预测,不过这里的预测是通过自监督在潜在空间中学习得到的。无论是生成模型、RL模型还是JEPA模型,它们都没有达到因果推理文献中对世界模型强大因果概念的高标准。至于像Sora这样的视频生成模型,我们可以通过观察图像生成模型来寻找线索。再看Sora:与用于图像生成的潜在扩散模型一样,Sora是根据视觉输入进行端到端训练的。训练和生成都不是明确地以物理变量为条件的。Sora从根本上不同于使用物理引擎来运行模拟的复合模型。此外,Sora在感知、预测和决策模块之间没有内置分离。除此以外,Sora与Ha&Schmidhuber的世界模型也有很大不同,它不会基于离散行为、观察和奖励信号的历史来运行模拟。在这方面,OpenAI的技术报告在讨论通过提示生成视频示例时提到了《我的世界》(Minecraft),这有点误导。
最重要的突破是——在2024年,诺贝尔物理学奖和化学奖先后颁给AIAI不仅推动了机器学习的理论创新,还揭示了蛋白质折叠问题。其标志了人工智能AI已经真正成为一门科学学科和加速科学的工具。AI在生物医学气象等突破应用有哪些?基于深度学习和Transformer架构的蛋白质结构预测模型——AlphaFold 3由DeepMind和Isomorphic Labs发布的AlphaFold 3是一个基于深度学习和Transformer架构的蛋白质结构预测模型,能够高精度地预测包括蛋白质、DNA、RNA、配体等生物分子的结构和相互作用。它的出现将为细胞功能解析、药物设计和生物科学的发展提供有力支持。DeepMind展示新的实验生物学能力——AlphaProteo其秘密蛋白质设计团队推出第一个模型AlphaProteo是一种能够设计出具有三到三百倍亲和力的亚纳米摩尔蛋白结合剂的生成模型。生物学前沿模型的扩展:进化规模ESM3自2019年以来,Meta一直在发布基于Transformer的语言模型(进化规模模型),这些模型是通过大型氨基酸和蛋白质数据库进行训练的。今年,他们发布了ESM3,这是一种前沿多模态生成模型,它是在蛋白质序列、结构和功能上进行训练的,而不是仅仅在序列上进行训练。与传统的掩码语言建模不同,ESM3的训练过程使用可变掩码计划,使模型暴露于各种掩码序列、结构和功能的组合。ESM3能够学习预测任何模态组合的完成情况。学习设计人类基因组编辑器的语言模型——CRISPR-Cas图谱