李飞飞提出的核心观点包括:
《[李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型](https://mp.weixin.qq.com/s/mYUau7QMt82rS_iE7TPFJg)》李飞飞认为,人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性。计算机需要具备空间智能,能够建模、推理并在三维空间中互动。通过最新的AI技术,机器可以根据文本提示完成任务,并在虚拟环境中导航。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。《[吴恩达最新演讲——AI四大趋势](https://mp.weixin.qq.com/s/aZaOVVut-t1OenbidpFAjQ)》在吴恩达的主题演讲中,他探讨了智能体(AI Agents)和智能体推理(Agentic Reasoning)的崛起,强调非结构化数据的重要性。演讲指出,生成式AI使得应用开发速度大幅提升,快速实验成为创新的新路径,但同时带来了评估的挑战。吴恩达还提出了智能体AI的四大设计模式,并强调图像处理革命的潜力。他总结了四大趋势:加速的生成式工作流、工具优化的大模型、非结构化数据的重要性以及图像处理技术的发展。《[OpenAI主推的AI PDF工具,一年50万用户,团队只有5个人](https://mp.weixin.qq.com/s/ep4neZsa-q1a0awaQJthKA)》AI PDF是一款专注于处理PDF文件的工具,创始人Vicente Silveira认为小团队可以通过精细化功能在竞争中生存。尽管ChatGPT已允许用户上传PDF,AI PDF仍凭借支持多文件夹管理和用户特定需求,吸引了大量专业用户,如律师和研究员。团队通过聚焦特定用户群体和高效文档处理,取得了50万注册用户和3000名付费用户的成绩。
在上一篇《机器之心的进化》中,还在把纯视觉方式的FSD当作自动驾驶领域值得探索的前沿方向在讨论,不到两年时间,全北美一百多万辆Tesla里面已经预装了最新的FSD 12,就像在系统升级说明里面写到的:“我们移除了最后几万行人类写的C++代码,把自动驾驶改成了完全由神经网络端到端控制”,也就是光子进入,行动输出,中间完全由神经网络黑箱操作,软件2.0的成功范本。今年三月底升级到FSD 12.3.3之后,我现在大部分时间的驾驶都是让AI代劳的。第一趟体验就让我和之前的版本有了强烈的对比,头脑里的第一反应这就是自动驾驶的ChatGPT时刻,虽然还有许多小问题,但已经确立了纯视觉加上神经网络控制的可行性,接下来就和训练LLMs一样,靠算力和数据就能提升效果了。让车在物理世界中自我行动,这是空间智能(Spatial Intelligence)的第一步。路透社报道,在计算机视觉上有过杰出成就的李飞飞教授,正在打造一家与“空间智能”有关的初创公司。她在2024年最新的TED演讲中解释了这个概念:“通过空间智能,AI将理解真实世界,它们能够处理视觉数据,做出预测并根据这些预测采取行动”。配图3.09:李飞飞TED演讲(With Spatial Intelligence,AI Will Understand the Real World)
就像李飞飞在TED演讲中所描述的:“在那片原始海洋中,也就是我们的远古时代,眼睛的出现引发了寒武纪生命的大爆发。今天,这束光正在照进数字的心灵。空间智能使机器不仅能够相互交互,还能与人类以及真实或虚拟的三维世界进行交互。随着这个未来成为现实,它将对许多人的生活产生深远的影响。”回应本章开头的结论,如果我们能够提升全世界的智能供应,那将普惠到所有行业,尤其是通过人工来进行生产与服务的行业。当智能让机器更加灵巧,能源的充沛让智能无限便宜的时候,我们复制原子的成本就会将接近复制比特的成本,在《数字重塑人生》一文中详细讨论了这个话题。在智能时代,将劳动力支出转化为研发支出将改变公司的成本结构,虽然这需要更多的前期投资,但能降低生产和服务的边际成本。软件行业是这里的代表,它应该是法律许可的行业内,利润率最高的行业之一了。软件业的研发投入的平均比例为17.7%,科研服务的投入略高一些,大约为26.3%,这里包括了生物技术、纳米技术、先进材料和可再生能源等;但相比之下,制造业的占比为5%,而金融和保险业仅为为0.6%。如果这些行业的研发投入比能提高,那每个行业都会看起来更像软件行业,更快的增长,更高的利润和更多的研发。然而,这里真正的大机会是:大部分经济可能看起来像SaaS模式,有更深的护城河、更高的转换成本、有意义的经济规模,甚至是网络效应。例如,还在萌芽期的RoboTaxi服务如果能够顺利启动和运行,它将具备上述所有的特点。