直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

具身智能的最新发展成果

回答

具身智能的最新发展成果包括以下方面:

  • 在机器人领域,特别是服务机器人、工业自动化和辅助技术等方面有重要应用,能让机器人更好地理解和适应人类生活环境,提供更自然有效的人机交互。
  • 在虚拟现实、增强现实和游戏设计等领域广泛应用,创造更具沉浸感和交互性的体验。
  • 2003 年,日本工业技术研究院推出 HRP 系列的 4C 和 5P,5P 可替代人类完成重力作业。
  • 2009 年,双足机器人 PETMAN 亮相,用于检测化学防护衣。
  • 2013 - 2017 年,波士顿动力 Atlas 运动能力逐步增长,实现复杂运动动作。
  • 2024 年,波士顿动力宣布液压人形机器人 Atlas 退役,推出全电动人形机器人 Atlas。
  • 2021 年,特斯拉正式入局人形机器人行业;优必选发布 WalkerX,具备多种功能。
  • 2023 年,智元机器人发布远征 A1,接入人工智能大模型。
  • 2024 年,NVIDIA 于 GTC 大会上发布 Project GR00T,这是一款多模态人形机器人通用基础模型,能理解自然语言并模仿人类动作,实现快速学习与技能适应。
  • 人形化是未来趋势之一,人形机器人外形向人类细部特征靠拢,功能具备真实人类运动、灵活和环境判断能力。

然而,具身智能仍面临诸多挑战,如智能体身体设计以最大化智能表现、在复杂多变环境中有效学习、处理与人类社会的伦理和安全问题等。从目前技术发展和数据积累速度看,2024 年可能不会出现能用的“人的模型”或“具身智能”,但作为技术/应用的主线,重大进展有望看到。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

问:具身智能是什么?

具身智能的一个重要应用是在机器人领域,特别是在服务机器人、工业自动化和辅助技术等方面。通过具身智能,机器人可以更好地理解和适应人类的生活环境,提供更加自然和有效的人机交互。此外,具身智能也在虚拟现实、增强现实和游戏设计等领域有着广泛的应用,通过创造更具沉浸感和交互性的体验,丰富了人们的数字生活。尽管具身智能在理论和技术上取得了显著进展,但它仍面临许多挑战。例如,如何设计智能体的身体以最大化其智能表现,如何让智能体在复杂多变的环境中有效学习,以及如何处理智能体与人类社会的伦理和安全问题等。未来的研究将继续探索这些问题,以推动具身智能的发展和应用。

AGI 万字长文(下)| 2024,分叉与洪流

最后,“具身智能”的意义并不仅仅如此,它是AGI通往物理世界的桥梁。也是AI可以灵活自主操控“广义机器人”的重要路径。要注意,大多数的“广义机器人”长得并不是人样:机器狗、机械臂、无人机、自动驾驶汽车会是主流。从目前的技术发展速度以及数据积累速度角度来看,我并不认为2024年会出现能用的“人的模型”或“具身智能”,但作为技术/应用的主线,重大进展大概是看得到的。"Human is the key"; Lian 2024,with Dall-E

具身智能赛道爆发的前夕,我们应该了解些什么?(上)|Z研究第 5 期

2003年,日本工业技术研究院推出HRP系列的4C和5P,5P可以替代人类完成重力作业。2009年,双足机器人PETMAN亮相,PETMAN设计用于检测化学防护衣的人形机器人。第三代机器人:高动态发展阶段(以波士顿动力仿人机器人为代表)2013~2017年,波士顿动力Atlas运动能力逐步增长,逐步实现了在碎石堆上行走、跳跃、空翻等复杂运动动作。2024年,波士顿动力宣布液压人形机器人Atlas退役同时推出全电动人形机器人Atlas。2021年,特斯拉正式入局人形机器人行业;优必选发布WalkerX,能上下楼梯、操控家电、端茶倒水、给人按摩、陪人下棋; 2023年,智元机器人发布远征A1,接入人工智能大模型2024年NVIDIA于GTC大会上发布Project GR00T,这款多模态人形机器人通用基础模型,能理解自然语言并模仿人类动作,实现快速学习与技能适应两大发展趋势:人形化:从目前开发的人形机器人进展及对比中我们不难发现,在未来趋势上,人形机器人一致以外形向人类细部特征靠拢,功能具备真实人类运动,灵活、环境判断能力为主。

其他人在问
具身智能用什么开发
具身智能的开发涉及多个方面,其技术路线包括端到端模型和分层决策模型。感知模块负责收集和处理信息,通过多种传感器感知和理解环境,例如在机器人上常见的传感器有可见光相机、红外相机、深度相机、激光雷达、超声波传感器、压力传感器和麦克风等。具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。目前,具身智能正成为人工智能的新浪潮,在机器人领域、虚拟现实、增强现实和游戏设计等方面有着广泛应用,但仍面临诸多挑战,如智能体身体设计、复杂环境中的有效学习以及与人类社会相关的伦理和安全问题等。
2024-11-08
想建一个具身智能方面的知识库,有哪些建议
以下是关于建立具身智能知识库的一些建议: 1. 数据清洗方面: 可以尝试手动清洗数据以提高准确性。对于在线知识库,创建飞书在线文档,每个问题和答案以“”分割,可进行编辑修改和删除,添加 Bot 后在调试区测试效果。 对于本地文档,注意合理拆分内容,不能将大量数据一股脑全部放入训练,例如对于章节内容,先放入大章节名称,再按固定方式细化处理,然后选择创建知识库自定义清洗数据。 2. 智能体的相关方面: 注重智能体的交互能力,包括大模型本身的交互能力、多 Agent 的灵活性、workflow 的妙用以及上下文说明。 考虑智能体的知识体量,利用豆包大模型本身的行业数据和语料库,创建结构化数据的知识库。 关注智能体的记忆能力,如变量、数据库和信息记录。 3. 具身智能的具体内容: 了解具身智能本体的形态实现思路,如 Mobility 和 Manipulation 的实现方式。 明确具身智能的定义,探讨其与大模型要解决问题的差异,以及“人形”的重要性。 解决数据来源和构建大脑的问题,包括大模型和多模态的数据泛化、数据采集和量的问题,以及特定任务和场景的处理,还有结构化与非结构化场景的处理等。 思考具身智能的落地场景和商业化方向,例如 ToB 或 ToC 的选择。 考虑具身智能创业团队的背景组成,如工业机器人、自动驾驶、服务机器人等领域的经验。
2024-11-05
具身智能在制造行业的落地方向有哪些?
具身智能在制造行业的落地方向主要包括以下几个方面: 1. 预测性维护:利用具身智能技术预测机器故障,帮助工厂避免停机,提高生产效率。 2. 质量控制:检测产品缺陷,提升产品质量。 3. 供应链管理:优化供应链,实现效率提升和成本降低。 4. 机器人自动化:控制工业机器人,进一步提高生产效率。 具身智能是人工智能领域的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来发展和展现智能。它的核心在于智能体的“身体”或“形态”,这些身体可以是物理形态,也可以是虚拟形态。具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。在机器人学中,关注如何设计能自主行动和适应环境的机器人;在认知科学和神经科学中,探索大脑处理与身体相关信息的机制及应用于人造智能系统;在计算机视觉中,致力于开发算法使智能体理解和解释视觉信息,进行有效的空间导航和物体识别。 作为一个系统性的工程,具身智能涉及算法层、不同技术流派、数据、模拟器、传感器、视觉方案、力学结构等多个维度,并整体向着更鲁棒性、各层级之间过渡更加平滑的方向发展。但也存在一些问题,比如力矩控制、电流控制做到哪一步才算端到端,机器人的 foundation model 或者 GPT 时刻会是什么样,触觉等感知信号以什么样的形式进入模型当中等。
2024-10-26
如何做一个具身智能实体?
要实现具身智能实体,以下是一些关键方面: 1. 空间智能:像人类看到桌上水杯能自动计算其位置和与周围事物的关系并预测后续情况一样,具身智能实体也应具备这种能力,将感知与行动联系起来,例如特斯拉的 FSD 以及英伟达的 GR00T 项目。 2. 通用智能体特征:能在开放世界中探索,拥有海量世界知识,并能执行无数任务。 3. 与环境的互动:无论是在物理世界还是数字世界,具身智能实体都需要感知、交互、主动获取数据、主动犯错、主动迭代、收集和反馈。 4. 对工具的理解和使用:有效使用工具的前提是全面了解工具的应用场景和调用方法,通过学习如从示范中学习和从奖励中学习等方法,利用环境和人类的反馈做出调整。 5. 感知物理世界:在物理世界中感知环境的难度较大,需要重点关注更底层的传感,包括视觉传感和触觉传感,充分感知和理解更多信息以进行决策。 需要注意的是,目前具身智能的实现仍面临诸多挑战,数字世界可能会先于物理世界取得突破。
2024-10-22
具身智能在制造行业的应用场景有哪些
具身智能在制造行业的应用场景主要包括以下方面: 1. 预测性维护:通过具身智能,能够预测机器故障,避免工厂停机,保障生产的连续性。 2. 质量控制:检测产品缺陷,提升产品质量,减少次品率。 3. 供应链管理:优化供应链,提高效率,降低成本。 4. 机器人自动化:控制工业机器人,提高生产效率。 具身智能是人工智能领域的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来发展和展现智能。它的核心在于智能体的“身体”或“形态”,这些身体可以是物理形态,如机器人的机械结构,也可以是虚拟形态。具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。 在机器人发展历程中,第一代机器人是示教再现型,没有感知和思考能力,按预设程序重复动作,目前仍常见于汽车制造业等工业生产线。之后出现了有感觉的机器人,能获取周围环境和相关对象的信息。例如,日本早稻田大学研发的人形智能机器人 WABOT1 包含肢体控制系统、视觉系统和对话系统,后续还有不断的更新和发展。
2024-10-22
具身智能在制造行业的应用场景有哪些?
具身智能在制造行业有以下应用场景: 1. 预测性维护:利用具身智能预测机器故障,避免工厂停机,提高生产效率。 2. 质量控制:检测产品缺陷,提升产品质量。 3. 供应链管理:优化供应链,增强效率并降低成本。 4. 机器人自动化:控制工业机器人,提高生产效率。 具身智能是人工智能领域的一个子领域,强调智能体通过与物理世界或虚拟环境的直接交互来发展和展现智能。它认为智能不仅是处理信息的能力,还包括感知环境、自主导航、操作物体、学习和适应环境的能力。其核心在于智能体的“身体”或“形态”,这些身体可以是物理形态如机器人的机械结构,也可以是虚拟形态如在模拟环境中的虚拟角色。具身智能的研究涉及多个学科,包括机器人学、认知科学、神经科学和计算机视觉等。 在机器人发展历程中,第一代机器人是技术探索阶段的示教再现型机器人,没有感知和思考能力,按预设程序重复动作,目前仍常见于汽车制造业等工业生产线。1970 年至 1997 年出现了有感觉的机器人,能获取周围环境和相关对象的信息。例如日本早稻田大学研发的 WABOT1 包含肢体控制系统、视觉系统和对话系统,后续还有更新版本。本田公司也开发了多种行走机器人。
2024-10-15
智能字幕
以下是关于智能字幕的相关信息: 在制作数字人视频时,可通过以下步骤添加智能字幕:点击文本 智能字幕 识别字幕,然后点击开始识别,软件会自动将文字智能分段并形成字幕。完成后,可点击右上角的“导出”按钮导出视频备用。 为您推荐以下视频自动字幕工具: 1. Reccloud:免费的在线 AI 字幕生成工具,可直接上传视频精准识别,能对识别的字幕进行翻译,自动生成双语字幕,已处理 1.2 亿+视频,识别准确率接近 100%。 2. 绘影字幕:一站式专业视频自动字幕编辑器,提供简单、准确、快速的字幕制作和翻译服务,支持 95 种语言,准确率高达 98%,还可自定义视频字幕样式。 3. Arctime:能对视频语音自动识别并转换为字幕,甚至支持自动打轴,支持 Windows 和 Linux 等主流平台,支持 SRT 和 ASS 等字幕功能。 4. 网易见外:国内知名语音平台,支持视频智能字幕功能,转换正确率较高,支持音频转写功能。 此外,还有一些包含自动字幕功能的视频 AIGC 工具,如 veed.io 。 以上工具各有特点,您可根据自身需求选择最适合的。请注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-13
人工智能会取代人类吗
人工智能是否会取代人类是一个复杂且备受关注的问题。 从一些观点来看,按照目前 AI 发展的速度,在未来十几年内,人类的所有事情乃至人类这个种族有可能被 AI 完全替代。比如,当函数的参数超过兆亿级时,硅基生物可能会理解人类的所有行为及背后的意义,从而实现对人类的全面超越。 然而,也有不同的看法。虽然 AI 会优化效率,但每个工作的组成部分并非单一,人可以和 AI 更好地协同。例如放射科医生的工作,解读 X 光照片只是其中一部分,实际该岗位并未因 AI 而失业。 同时,对于人工智能的担忧还包括是否会放大人类的负面影响、导致失业以及人类毁灭等。但在技术层级上可以解决类似于社会歧视等问题,人类也有丰富的经验来控制比个体强大的事物,许多未完全控制的事物也有其价值和安全性,而且 AI 还可能成为解决气候变化和大流行病等问题的关键。 另外,ChatGPT 的崛起使人们认为大模型可能是通用的,但通用技术并非通用人工智能(强人工智能),强人工智能的定义是可以像人一样做任何智力任务。
2024-11-13
AI智能体是什么
AI 智能体是随着 ChatGPT 与 AI 概念爆火而出现的新名词,简单理解就是 AI 机器人小助手。参照移动互联网,类似 APP 应用的概念。AI 大模型是技术,面向用户提供服务的是产品,所以很多公司关注 AI 应用层的产品机会。 在 C 端,比如社交方向,用户注册后先捏一个自己的智能体,让其与他人的智能体聊天,聊到一起后真人再介入,这是有趣的场景;还有借 Onlyfans 入局打造个性化聊天的创业公司。 在 B 端,如果字节扣子和腾讯元器是面向普通人的低代码平台,类似 APP 时代的个人开发者,那还有帮助 B 端商家搭建智能体的机会,类似 APP 时代专业做 APP 的。 目前有不少大厂推出自己的 AI 智能体平台,像字节的扣子,阿里的魔搭社区等。AI 智能体拥有各项能力,能帮我们做特定的事情,包含了自己的知识库、工作流,还可以调用外部工具,再结合大模型的自然语言理解能力,可以完成比较复杂的工作。其出现是为了解决如 GPT 或文心一言大模型存在的胡编乱造、时效性、无法满足个性化需求等问题,用户可以结合自己的业务场景和需求,捏出自己的 AI 智能体来解决问题。 例如,扣子(Coze)是字节跳动旗下的新一代一站式 AI Bot 开发平台,无论用户是否具备编程基础,都能在该平台上迅速构建基于 AI 模型的各类问答 Bot,开发完成后还可将其发布到各种社交平台和通讯软件上供用户交互聊天。创建智能体可通过简单 3 步:起名称、写介绍、用 AI 创建头像。
2024-11-13
用飞书做个智能工单系统
目前飞书知识库中没有关于用飞书做智能工单系统的相关内容。但一般来说,要使用飞书构建智能工单系统,您可以考虑以下步骤: 1. 明确工单系统的需求和功能,例如工单的类型、处理流程、优先级设置等。 2. 利用飞书的应用开发平台或相关工具,创建工单模板和表单,以收集工单的必要信息。 3. 配置工单的流转规则和通知机制,确保工单能够及时准确地分配给相关人员,并通知到相关方。 4. 建立工单的跟踪和监控机制,以便了解工单的处理进度和状态。 5. 对工单数据进行分析和统计,以便优化工单处理流程和提高服务质量。 由于缺乏具体的飞书相关内容,以上步骤仅为一般性的指导,您可能需要进一步探索飞书的功能和相关文档来实现智能工单系统。
2024-11-13
城市智能停车服务系统建设方案
很抱歉,目前知识库中没有关于城市智能停车服务系统建设方案的相关内容。但一般来说,建设城市智能停车服务系统可以从以下几个方面考虑: 1. 需求分析:了解城市的停车需求、现有停车设施状况以及存在的问题。 2. 技术选型:选择适合的传感器、通信技术、数据库管理系统等。 3. 系统设计:包括车位监测与管理、用户端应用设计、后台管理系统等。 4. 数据采集与处理:准确采集车位使用情况等数据,并进行有效的处理和分析。 5. 支付与计费系统:提供便捷的支付方式,并制定合理的计费规则。 6. 与其他系统的集成:如交通管理系统、城市规划系统等。 7. 安全与隐私保护:确保系统的安全性和用户数据的隐私。 8. 维护与升级:定期对系统进行维护和升级,以适应不断变化的需求。 以上只是一个初步的框架,具体的建设方案需要根据城市的实际情况进行详细的规划和设计。
2024-11-12
智能体
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 智能体的定义: 智能体是自主系统,通过感知环境(通常借助传感器)并采取行动(通常通过执行器)来达成目标。在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并包含以下关键组成部分: 规划 子目标和分解:将大型任务分解为更小、可管理的子目标,以有效处理复杂任务。 反思和完善:对过去行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 记忆 短期记忆:利用模型的短期记忆进行上下文学习。 长期记忆:通过外部向量存储和快速检索实现长时间保留和回忆(无限)信息。 工具使用:学习调用外部 API 获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 智能体的类型: 智能体可根据复杂性和功能分为以下几种类型: 简单反应型智能体(Reactive Agents):根据当前感知输入直接行动,不维护内部状态,不考虑历史信息。例如温控器,根据温度传感器输入直接控制加热器。 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入建模,能推理未来状态变化并据此行动。例如自动驾驶汽车,不仅感知当前环境,还维护和更新周围环境模型。 目标导向型智能体(Goalbased Agents):具有明确目标,能根据目标评估不同行动方案并选择最优行动。例如机器人导航系统,有明确目的地并规划路线以避障。 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动优劣并权衡利弊。例如金融交易智能体,根据市场条件选择最优交易策略。 学习型智能体(Learning Agents):能通过与环境交互不断改进性能,学习模型、行为策略以及目标函数。例如强化学习智能体,通过与环境互动不断学习最优策略。 此外,智能体还应用于情绪主题角色扮演小游戏,来源于 Cathy 教练和 Leah 老师的情绪力手册,帮助家长和孩子从源头了解、分辨、分析、处理和控制情绪,包含需求分析、分步实现需求、提示词编写测试、GPTs 使用链接和总结等内容。
2024-11-12
AI能根据阶段性成果推断出最终结果吗
在最简单的情形下,我们基本想用人工智能做归纳推理,输入一系列测量结果,让其预测尚未完成的测量结果。此时,我们把人工智能视作黑匣子,只关心其能否给出正确答案,可能认为能设置它“不做任何假设”而“遵循数据”,但人工智能不可避免存在一些底层结构,使其最终要假设某种数据模型。这是机器学习中常见的情况,比如训练神经网络来预测、分类等,若“向内看”很难明白其运作原理。应用图像识别神经网络会有最终结果,网络中约一半层产生的“中间想法”可能存在类似“猫性的最终标志”,但这不在当前科学词典中,无法用于构建解释图像的“科学叙述”。 综上,人工智能在一定程度上能根据阶段性成果进行推断,但存在诸多限制和不确定性。
2024-11-13
我是一名企业任用岗人,需要作一版关于AI在任用管理(包括员工入职管理,员工异动管理,员工转正管理,员工离职管理,员工合同续签管理)工作中的成果展示,进行简易的分享;我不知道如何分享,且分享的表述如何简洁而不失重点。
以下是一些 AI 在不同工作场景中的应用案例,可作为您在任用管理工作成果展示中的参考: 营销:定制营销报告,涵盖汇报对象身份、销售数据、财务报告、市场分析、客户反馈、营销效果评估等方面。 办公:高效做 PPT,利用 ChatGPT 生成 Markdown 语法内容,再借助 MindShow 转换为精美 PPT;编写 Excel 公式,通过交互和迭代获取准确公式;写邮件,满足特定需求。 办公:会议总结,包括会议主题、参与人员、讨论议题、关键观点等要素。 项目管理:通过创建和维护跨团队项目协作计划,明确员工角色和职责。 销售:话术总结优缺点,考虑产品特点、服务优势、目标客户需求等因素;定制销售解决方案,综合企业产品和服务等内容。 客服:定制客服话术,涵盖产品知识、售后服务等 13 个关键词库。 HR:团队绩效管理,根据往期数据分析员工绩效排名并给出考评和改进建议;面试工具,如使用 GPT4 技术的实时转录工具辅助求职者。 科学:研制采摘机器人,如荷兰代尔夫特大学和瑞士洛桑联邦理工学院科学家的探索;设计航天器零部件,提高设计效率和创新度。
2024-10-16
生成式人工智能如何进行检验散文学习成果
生成式人工智能检验散文学习成果可以从以下几个方面进行: 1. 让语言模型(LLM)检查散文中的文本错误,并对长句进行总结。 2. 利用 LLM 进行语义分析,将散文中的信息传递给相关部门。 3. 对于散文的情感分析,可让模型将其进行正负判断,并展示结果。 此外,还需了解一些相关的知识: 1. 生成式 AI 生成的内容称为 AIGC。 2. 相关技术名词包括: AI 即人工智能。 机器学习包括监督学习(有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归)、无监督学习(学习的数据没有标签,算法自主发现规律,如聚类)、强化学习(从反馈里学习,最大化奖励或最小化损失)。 深度学习参照人脑有神经网络和神经元,神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 是大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,如谷歌的 BERT 模型可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 3. 技术里程碑方面,2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制处理序列数据,比 RNN 更适合处理文本的长距离依赖性。
2024-10-13
生成式人工智能如何进行评价散文学习成果
评价生成式人工智能在散文学习成果方面,可以从以下几个方面考虑: 1. 监督学习构建餐厅评价鉴别系统的过程: 获得标签数据(可能需要 1 个月)。 寻找人工智能团队帮助,训练数据上的模型,让人工智能模型学习如何根据输入来输出正负评价(可能需要 3 个月)。 找到云服务来部署和运行模型(可能需要 3 个月)。 2. 生成式 AI 项目的生命周期: 建立人工智能的过程中,首先评估项目,建立系统/优化系统,内部测试,外部部署与监控。 当内部测试出现问题时,可能要检查系统内的提示词或者提升系统。当外部使用出现问题,需要检查内部评估环节,甚至检查系统内部。 建造人工智能软件是一个高度实验性的过程,需要不断实验操作,尝试,调整再尝试,再调整。 3. 相关技术概念: 生成式 AI 生成的内容叫做 AIGC。 机器学习包括监督学习、无监督学习、强化学习。 监督学习是基于有标签的训练数据,学习输入和输出之间的映射关系,包括分类和回归。 无监督学习的数据没有标签,算法自主发现规律,经典任务包括聚类。 强化学习从反馈里学习,最大化奖励或最小化损失。 深度学习参照人脑有神经网络和神经元,神经网络可用于多种学习方式。 Transformer 模型完全基于自注意力机制处理序列数据,比 RNN 更适合处理文本的长距离依赖性。 这些方面的知识和实践经验可以帮助您更全面地评价生成式人工智能在散文学习成果方面的表现。
2024-10-13
AI 领域的前沿研究成果
以下是 AI 领域的一些前沿研究成果: 在现代 AI 理解方面,有“AI 典藏”资源列表,包含对 Transformer 和 Latent Diffusion 模型的介绍,以及技术学习资源、构建大型语言模型的实用指南和 AI 市场分析等。其中,2017 年谷歌发布的“Attention is All You Need”论文向世界介绍了 Transformer 模型,开启了生成 AI 的时代。 在医疗领域,ChatGPT 和 Google Bard 等技术加速了医疗健康生物制药的研究。例如,AI 提前三年诊断胰腺癌;两名高中生与医疗技术公司合作发现与胶质母细胞瘤相关的新靶基因;AI 帮助筛选抗衰老的高效药物候选物;利用 AI 寻找阿尔兹海默症的治疗方法等。 在其他数据模态方面,如 DreamFusion:Textto3D using 2D diffusion(2022),是来自 Google 和加州大学伯克利分校的研究人员基于 NeRF 从 2D 输入生成 3D 图像的工作。
2024-08-21
国内AI行业最新发展状况
以下是关于国内 AI 行业最新发展状况的介绍: OpenAI 的 o1 模型主导:OpenAI 最新推出的 o1 模型正在重新定义 AI 在数学、科学和推理方面的极限,使竞争对手困惑甚至“破产”。 中国的 AI 崛起:无视制裁,中国的模型凭借坚韧和战略智慧正在“屠榜”,证明他们仍在牌桌之上。 生成式 AI 的数十亿繁荣:AI 初创公司正赚得盆满钵满,但可持续性难以捉摸。 AI 产业链中的机会分析: 1. 基础设施层:布局投入确定性强,但资金投入量大,入行资源门槛高,未来更多由“国家队”负责,普通人可考虑“合作生态”切入机会。 2. 技术层:技术迭代迅速,小规模团队或个人须慎重考虑技术迭代风险,基础通用大模型非巨无霸公司不建议考虑,竞争激烈,最终赢家通吃。 3. 应用层:是广阔蓝海,当前成熟应用产品不多,“杀手级”应用凤毛麟角,普通个体和小团队推荐重点布局,发展空间巨大。 AI 产品发展的未来展望: 1. 更深度的行业整合:AI 技术将与各行各业更紧密结合。 2. 用户体验的持续优化:易用性和稳定性将进一步提升。 3. 新兴应用场景的出现:可能在智能家居、自动驾驶等领域找到新突破口。 相关报告及解读链接: (报告 212 页)
2024-11-14
最新的文生视频/图生视频能力是什么
以下是关于最新的文生视频/图生视频能力的介绍: PIKA1.0 启用了全新的模型,文生视频质量大幅提升,例如输入“Cinematic,happy laughing girl in office,Pixar style”的 Prompt 能瞬间生成匹配皮克斯水平的镜头,且稳定性和神情表现出色,爆杀市面上所有的 AI 视频。在文生图方面,新模型也极其稳定。同时,图生视频效果很棒,人的一致性逆天,语义理解强,动作幅度大。此外,还有一些小技巧,如在右下角第三个设置里,负面提示(Negative prompt)可以常驻“blurry,out of focus,twisted,deformed”,提示词相关性别设 5 15 之间效果较好。 这半年来,除传统的文生视频、图生视频能力迭代外,主要技术发展还围绕着通过转绘改变画风、视频内人物识别和替换方向。在服务头部创作者方面,未来产品会强化编辑器能力和视频细节可控性,并智能化后期制作任务。影视后期方向,可将动捕演员表演转化为虚拟角色提高特效制作效率。专业领域,创作者能通过草图分镜验证效果。在 C 端大众消费侧,AI 视频有望在小说、网文阅读、短情景剧等内容消费方向发挥潜力,人物识别和替换可衍生电商平台虚拟试衣间能力。Viggle、DomoAI 的产品中的模板套用能力若低成本开放在短视频产品中,可能带来新的爆发周期。 Stable Video Diffusion 1.1 新模型以及 stablevideo.com 开始内测,清晰度、控制方式和效果都有很大提升,目前提供文生视频、图生视频两种方式,文生视频先生成 4 张图像选一张用于生成视频,图生视频提供几种控制方式(仅开放了一部分),另外目前提供 17 种风格。
2024-11-10
ChatGPT最新的版本是什么
目前 ChatGPT 官网主要有以下版本: 1. GPT3.5:免费版本,拥有 GPT 账号即可使用,但智能程度相对较低,无法使用 DALL.E3(AI 画图功能)、GPTs 商店和高级数据分析等插件,知识更新到 2022 年 1 月。 2. GPT4:智能程度较高,知识更新到 2023 年 12 月。想要使用更多功能需要升级到 PLUS 套餐,收费标准为 20 美金一个月,还有团队版和企业版,费用更贵,一般推荐使用 PLUS 套餐。 3. ChatGPT 4o:5.13 发布,可免费体验,但免费体验次数有限,知识更新到 2023 年 10 月。想要更多功能也需要升级到 PLUS 套餐。
2024-11-09
最新AI搜索相关产品总结
以下是关于最新 AI 搜索相关产品的总结: 自今年二月份以来,AI 搜索赛道不断有新的产品出现,市场定位有所差异。 在国内,有大模型厂商推出的 ChatBot 产品,如智谱清言、Kimi Chat、百小应、海螺 AI 等;也有搜索厂商或创业团队推出的 AI 搜索产品,如 360 AI 搜索、秘塔、博查 AI、Miku 等。 在海外,有很多成熟的和新出的泛 AI 搜索产品,如 Perplexity、You、Phind 等。中国公司和团队也有面向全球市场的出海产品,如 ThinkAny、GenSpark、Devv 等。 ThinkAny 选择出海做全球市场,主要考虑国内竞争激烈、用户付费意愿不高、存在政策风险等因素。 从解决的需求或面向的群体分类,可分为通用搜索和垂直搜索两类。通用搜索如 Perplexity、ThinkAny,没有明显的受众倾向,任何人可以搜任何问题,都能得到相对不错的搜索结果。垂直搜索如 Phind、Devv、Reportify,一般面向特定人群或特定领域,在某类问题的搜索上会有更好的结果。 AI 搜索目前主要有两类产品形态: 1. 大模型厂商或第三方推出的 ChatBot,主要交互是一个对话框+RAG 联网检索,这类产品包括 ChatGPT、Kimi Chat 等。 2. 专门做 AI 搜索的产品,主要交互是一个搜索框+搜索详情页,这类产品包括 Perplexity、秘塔等。 以下是一些推荐的 AI 搜索引擎: 1. 秘塔 AI 搜索:由秘塔科技开发,提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能,旨在提升用户的搜索效率和体验。 2. Perplexity:一款聊天机器人式的搜索引擎,允许用户用自然语言提问,使用生成式 AI 技术从各种来源收集信息并给出答案。 3. 360AI 搜索:360 公司推出的 AI 搜索引擎,通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 4. 天工 AI 搜索:昆仑万维推出的搜索引擎,采用生成式搜索技术,支持自然语言交互和深度追问,未来还将支持图像、语音等多模态搜索。 5. Flowith:一款创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,提供插件系统和社区功能。 6. Devv:面向程序员的 AI 搜索引擎,专注于提供编程、软件开发和人工智能等领域的专业建议和指导。 7. Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关的搜索结果和动态答案,特别擅长处理编程和技术问题。 这些 AI 搜索引擎通过不同的技术和功能,为用户提供更加精准、高效和个性化的搜索体验。但内容由 AI 大模型生成,请仔细甄别。
2024-11-07
最新AI资讯
以下是为您提供的最新 AI 资讯: 对于新手学习 AI,要持续学习和跟进,关注 AI 领域的新闻、博客、论坛和社交媒体,保持对最新发展的了解。考虑加入 AI 相关的社群和组织,参加研讨会、工作坊和会议,与其他 AI 爱好者和专业人士交流。 AIGC Weekly 32 中的部分资讯: Netflix 列出了一个年薪 90 万美元的机器学习平台产品经理的 AI 产品工作岗位: Shopify 的 AI 助手现已上线。Sidekick 是一个帮助机器人,它知道如何在 Shopify 中执行任何操作提取相关数据、操作新功能或创建报告: Artifact(Ins 创始人做的 AI 新闻浏览软件)推出了自定义内容阅读语音的功能: OpenAI、谷歌、微软和 Anthropic 组建了前沿模型论坛,主要目的是确保 AI 模型的安全发展: Open AI 悄咪咪下线了他们的 ChatGPT 生成内容的检测器: 2024 年人工智能现状: OpenAI 的 o1 模型占据主导地位:OpenAI 的 o1 在数学、科学和推理方面重新定义了 AI 的极限,让竞争对手感到困惑和挫败。 中国的 AI 崛起:中国模型不顾制裁,凭借强大的韧性和战略智慧在排行榜上名列前茅,证明了其主导地位。 生成式 AI 的数十亿美元繁荣:AI 初创公司大赚,但可持续性仍像能理解细微差别的聊天机器人一样难以捉摸。报告链接:
2024-11-06
AI加教育的最新进展
以下是 AI 加教育的最新进展: 案例方面: “AI 赋能教师全场景”,来自 MQ 老师的投稿贡献。 “未来教育的裂缝:如果教育跟不上 AI”,揭示了人工智能在教育领域从理论走向实际应用带来的颠覆性改变。 “化学:使用大型语言模型进行自主化学研究”。 “翻译:怎么把一份英文 PDF 完整地翻译成中文?”,介绍了 8 种方法。 对未来的预判: 个性化学习时代已到来,AI 将作为教育生态系统的一部分与人类教师协作,为孩子提供不同的学习体验,如混合式教学、定制学习路径等。 教育工作者将成为学习的引导者和伙伴,更多关注孩子的全人发展,如创造力和社交智慧。 未来 3 年,提升人机协作效率的领域,如 AI 作业批改、备课、定制教育规划、学前启蒙等,对教育从业者蕴藏着巨大机遇。 探索实践: 过去半年多,梳理教学和育儿工作流,每个环节与 AI 协作可大幅提升效率,但也加剧了知识获取的不平等。从家长的“育”、老师的“教”和学生的“学”进行了落地实践的拆解。
2024-11-05