Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

李飞飞 智能体

Answer

李飞飞在 AI 领域尤其是具身智能方面有诸多研究和观点:

  • 早在 2021 年 10 月,其团队发表在 Nature Communications 上的 Embodied Intelligence 论文研究了智能体的智能化程度与身体结构的关系。后续接受采访时,提到从识别图像的机器学习能力到解决复杂类人任务,具身智能可能迎来重大转变。
  • 2024 年 11 月 26 日,李飞飞认为人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性,计算机需要具备空间智能,能够建模、推理并在三维空间中互动。
  • 李飞飞的 Voxposer 是具身智能产品之一,在不同任务和场景中展示了强大的能力。
Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言:大模型时代下的具身智能|Z 沙龙第 5 期

原文链接:https://mp.weixin.qq.com/s/EHtk5IsA7bNVrW_1J5q0-A来源:质朴发言发文时间:2024.01.12早在2021年10月,斯坦福的李飞飞团队发表在Nature Communications上的Embodied Intelligence论文Embodied intelligence via learning and evolution研究了智能体的智能化程度与身体结构的关系。在后续接受采访时,李飞飞提到过这样一个观点:从识别图像这样简单的机器学习能力,到学习如何解决复杂类人任务,具身智能可能会迎来一次重大转变。而LLM席卷全球后,将LLM接入机器人本体,是目前许多团队在做的尝试。LLM+VLM+机器人方案更被认为是通用知识、视觉智能和硬件操作的结合,让人看到具身智能的曙光。机器人和AI从业者们开始更加广泛探讨“大模型能给具身智能带来什么?”。由此,我们在1月6日举办了Z沙龙的第五期:大模型时代下的具身智能,这也是首期co-host形式。我们有幸与光速光合的朋友们一起邀请了许多产业界和学术界的朋友来到质朴发言,碰撞思想,交流观点。清华大学的研究人员在圆桌中分享了让人激动的学术进展,如“基于强化学习实现更强场景泛化能力的四足机器人”“精细操作上的触觉仿真,仿真环境渲染视觉效果迁移到真实世界”方向的最新成果。也有投资人们对谈Stanford最新的炒虾机器人Mobile ALOHA主创的收获。Google DeepMind的RT X、Figure.AI的场景化研究,也都在圆桌中有所讨论。还有一些具身智能从业者,和研究人员关心的点,在此罗列一些,方便大家结合目录使用:

2024 年历史更新(归档)

《[李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型](https://mp.weixin.qq.com/s/mYUau7QMt82rS_iE7TPFJg)》李飞飞认为,人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性。计算机需要具备空间智能,能够建模、推理并在三维空间中互动。通过最新的AI技术,机器可以根据文本提示完成任务,并在虚拟环境中导航。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。《[吴恩达最新演讲——AI四大趋势](https://mp.weixin.qq.com/s/aZaOVVut-t1OenbidpFAjQ)》在吴恩达的主题演讲中,他探讨了智能体(AI Agents)和智能体推理(Agentic Reasoning)的崛起,强调非结构化数据的重要性。演讲指出,生成式AI使得应用开发速度大幅提升,快速实验成为创新的新路径,但同时带来了评估的挑战。吴恩达还提出了智能体AI的四大设计模式,并强调图像处理革命的潜力。他总结了四大趋势:加速的生成式工作流、工具优化的大模型、非结构化数据的重要性以及图像处理技术的发展。《[OpenAI主推的AI PDF工具,一年50万用户,团队只有5个人](https://mp.weixin.qq.com/s/ep4neZsa-q1a0awaQJthKA)》AI PDF是一款专注于处理PDF文件的工具,创始人Vicente Silveira认为小团队可以通过精细化功能在竞争中生存。尽管ChatGPT已允许用户上传PDF,AI PDF仍凭借支持多文件夹管理和用户特定需求,吸引了大量专业用户,如律师和研究员。团队通过聚焦特定用户群体和高效文档处理,取得了50万注册用户和3000名付费用户的成绩。

一篇具身智能的最新全面综述!(上)

最近,具身智能的概念很火。不论是这几天[稚晖君开源人形机器人全套图纸+代码](http://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247686482&idx=1&sn=e38d9d5eedcb1355fb65f617812016ed&chksm=e87dc81fdf0a410991d12d60cf0354c1a35fe2e35593bd09c93649551627444d6b78e32a0bd9&scene=21#wechat_redirect),引发圈内热议。还是各类具身智能产品,如李飞飞的Voxposer、谷歌的RT1和RT2、谷歌的RTX、字节跳动的Robot Flamingo、斯坦福的ACT和卡耐基梅隆的3D_diffuser_act,均在不同任务和场景中展示了强大的能力,并有潜力带来革命性的变革。那什么是具身智能呢?它又有什么用?一文带你了解。本文拆分为上下两篇,明天会更新下篇,聚焦人机交互、发展讨论。本文部分参考中国信息通信研究院和北京人形机器人创新有限公司的《具身智能发展报告》具身智能基本概念

Others are asking
李飞飞关于aigent的文章
以下是李飞飞关于 AIgent 的相关文章: 《对话"AI 教母"李飞飞:我们究竟需要什么样的 AI Agent?如何正确把握这个风口》:李飞飞在访谈中探讨了 AI Agent 的发展及其未来。她强调 AI Agent 应作为工具和赋能者,而非主导者,确保人们的自主性。李飞飞回顾了 ImageNet 的创立背景,并提到正在推动的“空间智能”概念,旨在理解和融合物理与数字三维世界。她认为,未来这两者的界限将逐渐模糊,从而带来更大变革。 《[李飞飞:理解世界运作方式是 AI 的下一步,我们需要从大语言模型转向大世界模型》:李飞飞认为,人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性。计算机需要具备空间智能,能够建模、推理并在三维空间中互动。通过最新的 AI 技术,机器可以根据文本提示完成任务,并在虚拟环境中导航。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。
2025-01-20
李飞飞 智能体综述
以下是关于李飞飞在智能体方面的相关综述: 李飞飞在具身智能领域有诸多研究和观点。其团队发表在 Nature Communications 上的 Embodied Intelligence 论文研究了智能体的智能化程度与身体结构的关系。李飞飞曾提到,从简单的机器学习能力到解决复杂类人任务,具身智能可能会迎来重大转变。 此外,2024 年 11 月 26 日有报道称,李飞飞认为人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性,计算机需要具备空间智能,能够建模、推理并在三维空间中互动。未来,这种以人为中心的人工智能将在家庭护理、医疗支持等领域发挥重要作用。
2025-01-18
李飞飞最近出的agent综述文章哪里可以看到
以下是李飞飞相关文章的获取渠道: 《》 《》
2025-01-17
李飞飞提出的Agent AI的核心观点是什么
李飞飞提出的核心观点包括: 人工智能的下一步应从大型语言模型转向大型模型,强调视觉智能在理解和与世界互动中的重要性,计算机需要具备空间智能,能够建模、推理并在三维空间中互动。 通过空间智能,AI 将理解真实世界,能够处理视觉数据,做出预测并根据这些预测采取行动。空间智能使机器不仅能够相互交互,还能与人类以及真实或虚拟的三维世界进行交互。
2025-01-13
李飞飞提出的空间智能是什么
李飞飞在其 TED 演讲中介绍了空间智能,认为空间智能能够赋予 AI 了解真实世界的能力。她将生物的视觉能力与寒武纪大爆发进行类比,指出数字寒武纪大爆发需要通过空间智能来实现。您可以通过以下链接获取更多详细信息: 原版视频:https://ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world 文字版翻译:https://xiaohu.ai/p/8105
2024-12-12
有没有一个人工智能工具,可以针对某个网站的更新内容进行分析
以下是为您找到的一些可能针对网站更新内容进行分析的人工智能工具: 1. NotebookLM:可以综合不同材料生成笔记,但存在交互设计不够清晰的问题。 2. Excel 中的 Copilot:能帮助写复杂公式、创建可视化图表及书写 Python 代码完成复杂任务。 3. Loop:可以生成对应内容的表格和其他 Office 软件链接。 4. Stream 中的 Copilot:能够帮助理解视频内容,询问并跳转到对应时间点。 5. Bard:推出了英语版 Bard Extensions,可从 Google 工具中查找并显示相关信息,还能使用“Google it”按钮核实答案,分享聊天时可继续对话并询问。 6. PaLM 2 模型:根据用户反馈应用强化学习技术训练,更加直观和富有想象力。 7. Youtube 的 AI 工具:包括 Dream Screen 可添加背景、YouTube Create 编辑手机视频、AI Insights 获取创意和大纲建议、Aloud 自动配音、创作者音乐中的辅助搜索找到配乐。 8. Dzine:更新了 Insert Character 能力,可快速替换画面角色。 9. 谷歌 IOS 中 Google Lens:在手机 Chrome 浏览器中可更快视觉搜索,还将 AI Overviews 广泛集成到搜索结果中。
2025-02-24
国内可以用DeepSeek的智能体,哪个比较好
以下是关于国内 DeepSeek 智能体的相关信息: 您可以通过 Coze 接入 DeepSeek 智能体。2 月 14 日 8 点有火山引擎解决方案专家在 Coze 搭建满血版 R1 bot 的直播,直播结束后可在查看回放。 学习文档: 模板更新了: 创建账号:如果您是普通账号,请自行升级或注册专业号后使用。 创建智能体:点击创建,先完成一个智能体的创建。如果在最上面的教程里已经创建好自己的推理点,那么直接在 Bot 编排里就可以直接看到和选择创建好的推理模型。测试完成后可以直接发布,但注意事项:如果发布到公共空间,其他人用的是您的 API,要注意 Token 消耗(也可以设置成仅自己使用)。如果想搭建联网及复杂的工作流,可以看完整搭建教程: 在 2025 年 1 月的国内流量增速榜单中,DeepSeek 排名第一,网址为 chat.deepseek.com,访问量为 22541 万,环比变化为 20.4093%。此外,还有 deepseek 开放平台,网址为 platform.deepseek.com,访问量为 1093 万,环比变化为 10.0697%。
2025-02-24
你是智能体嘛
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 智能体是一种自主系统,通过感知环境(通常借助传感器)并采取行动(通常通过执行器)来达成目标。在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并辅以几个关键组成部分: 1. 规划:包括子目标和分解,将大型任务分解为更小、可管理的子目标,以有效处理复杂任务。 2. 反思和完善:能够对过去的行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 3. 记忆:包含短期记忆,用于所有的上下文学习;长期记忆,通过利用外部向量存储和快速检索实现长时间保留和回忆(无限)信息的能力。 4. 工具使用:学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 创建智能体时,输入人设等信息,放上相关工作流。配置完成后可进行测试,但注意工作流中的某些节点使用的插件 api_token 填的是个人 token,不能直接发布,可将其作为工作流最开始的输入,用户购买后输入 api_token 再发布。 OpenAI 和 Google 都在研究智能体相关项目,如 OpenAI 会通过 GPT4o 让 ChatGPT 具备 Assistant Agent 能力,Google 也计划推出 Gemini Live 支持类似功能。智能体除了端到端的多模态,还具有实时性特点,从文字语音聊天升级到视频直播,保持一直在线,这对算力开销大,需缩小参数规模、升级架构提升性能,让终端分担一部分计算量。智能体的发展将改变硬件产品和手机的设计,带来新的交互方式。
2025-02-24
如何构建智能问答Agent
以下是关于构建智能问答 Agent 的相关信息: Agent 构建平台: 1. Coze:新一代一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具拓展 Bot 能力边界。 2. Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 6. 钉钉 AI 超级助理:依托钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 在飞书上构建 FAQ 机器人: 1. 会议介绍了 WaytoAGI 社区的成立愿景和目标,以及其在飞书平台上的知识库和社区的情况。 2. 讨论了利用 AI 技术帮助用户更好地检索知识库中的内容,引入了 RAG 技术,通过机器人来帮助用户快速检索内容。 3. 介绍了基于飞书的知识库智能问答技术的应用场景和实现方法,可以快速地给大模型补充新鲜的知识,提供大量新的内容。 4. 讨论了如何使用飞书的智能伙伴功能来搭建 FAQ 机器人,以及智能助理的原理和使用方法。 5. 飞书智能伙伴创建平台(Aily)是飞书团队旗下的企业级 AI 应用开发平台,提供简单、安全且高效的环境,帮助企业轻松构建和发布 AI 应用。 本地部署资讯问答机器人: 决定先采取 Langchain + Ollama 的技术栈来作为 demo 实现,后续也会考虑使用 dify、fastgpt 等更加直观易用的 AI 开发平台。 整体框架设计思路如下: Langchain 是当前大模型应用开发的主流框架之一,提供一系列工具和接口,核心在于其“链”概念,包括 Model I/O、Retrieval、Chains、Agents、Memory 和 Callbacks 等组件,可灵活组合支持复杂应用逻辑,其生态系统还包括 LangSmith、LangGraph 和 LangServe 等工具。 Ollama 是一个开箱即用的用于在本地运行大模型的框架。 请注意,以上信息由 AI 大模型生成,请仔细甄别。
2025-02-24
智能财务
以下是关于智能财务的相关信息: 金融服务业将比想象中更快地接纳生成式 AI: 生成式 AI 能帮助金融服务团队改进内部流程,简化财务团队日常工作流程。现代财务团队日常工作仍依赖手动流程,CFO 等在繁琐记录和报告任务上花费过多时间。 生成式 AI 可从更多数据源获取数据,并自动化突出趋势、生成预测和报告的过程,如帮助编写公式和查询实现分析自动化,发现模式并为预测建议输入,自动创建文本、图表等内容,帮助会计和税务团队综合、总结并提出可能答案,帮助采购和应付账款团队自动生成和调整相关文件及提醒。 新兴的 AI 智能体示例包括用于财务后勤的等。
2025-02-24
智能体和应用什么区别
智能体和应用的区别主要体现在以下几个方面: 1. 控制流:应用程序将语言模型作为语义搜索、综合或生成的“工具”,其采取的步骤由代码预先确定;而智能体是将语言模型置于应用程序的控制流中,让其动态决定要采取的行动、使用的工具以及如何解释和响应输入。 2. 自由度:在智能体中,如“决策智能体”设计使用语言模型遍历预定义的决策树,自由度受到限制;“轨道智能体”自由度更大,配备更高层次的目标,但解决空间有限;“通用人工智能体”则完全依赖语言模型的推理能力进行所有的计划、反思和纠正。 3. 概念理解:智能体简单理解就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。AI 大模型是技术,面向用户提供服务的是产品,很多公司关注 AI 应用层的产品机会,出现了如社交方向等 C 端案例和帮助 B 端商家搭建智能体等 B 端案例。同时,也有像字节扣子、腾讯元器等智能体开发平台。
2025-02-24