Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

数字孪生的关键技术

Answer

数字孪生的关键技术包括以下方面:

  • 利用定制软件实现工厂的数字孪生,如 Wistron 利用 Omniverse SDK 定制软件将 NVIDIA DGX 和 HGX 工厂实现数字孪生,大幅缩短调试周期。
  • 运用生成式 AI 进行天气预测,如 CoreDev 可通过超高分辨率 AI 预测严重风暴。
  • 构建端到端的机器人系统,让 AI 理解物理世界,需要 AI 计算机、监测分析计算机和执行任务的机器人三位一体。
  • 提供模拟环境,如 Omniverse 提供模拟环境,教会机器人如何成为机器人。
  • 实现软件定义的仓储、工厂,让机器人自主协同工作。
  • 解决数字人构建中的工程关键点,如构建像人一样思考的 AI Agent、实现灵魂驱动躯壳、保证实时性、实现多元跨模态、处理拟人化场景等。
Content generated by AI large model, please carefully verify (powered by aily)

References

黄仁勋在AI界超级碗GTC2024的主旨演讲: 精华及全文(附视频)

数字孪生技术已在各行各业大放异彩。Wistron利用Omniverse SDK定制软件,将NVIDIA DGX和HGX工厂实现数字孪生,大幅缩短调试周期。NVIDIA还运用生成式AI预测天气。CoreDev可通过超高分辨率AI预测严重风暴,如台风灿都。这项服务作为NVIDIA Earth 2的一部分,将惠及全球气象机构。NVIDIA在医疗领域也硕果累累,涵盖医学成像、基因测序和计算化学等。NVIDIA推出BioNeMo NIMS、NVIDIA推理微服务(NIMS)等新品,可在几分钟内生成候选分子。微服务包含三大支柱:AI模型、运行AI的工具;AI技术;基础设施用于AI微调和部署,可在DGX云等平台上实现。这类似于台积电代工芯片的模式,因此被称为AI代工厂。用户可利用这些服务处理各类结构化和非结构化数据,编码存储于向量数据库中,成为企业专属智慧。通过与智能数据库交互,可轻松获取所需信息。NVIDIA AI Foundry正携手SAP、ServiceNow等巨头,帮助他们开发自有数据和工具,在聊天机器人中打造企业级Copilot。要让AI理解物理世界,需要AI计算机、监测分析计算机和执行任务的机器人三位一体。这就像语言模型,只不过我们要构建的是端到端的机器人系统。通过强化学习,机器人可适应物理定律。Omniverse提供模拟环境,教会机器人如何成为机器人。OVX托管于Azure。未来的仓储、工厂都将由软件定义,机器人自主协同工作。数字孪生是机器人系统CICD的关键。西门子正构建工业元宇宙,日产已将Omniverse整合到工作流。所有移动设备都将是机器人,包括自动驾驶汽车。从计算机视觉到AI控制,还有很多工作要做。

AI 数字人-定义数字世界中的你

有了数字人躯壳,我们就需要构建数字人的灵魂,让数字人具备各种智能,比如记得你的个人信息,充当你的个人助手;在某个领域具备更专业的知识;能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点:1.AI Agent:我们要想数字人像人一样思考就需要写一个像人一样的Agent,工程实现所需的记忆模块,工作流模块、各种工具调用模块的构建都是挑战;2.驱动躯壳的实现:灵魂部分怎样去驱动躯壳部分,我们可以将灵魂部分的所有接口定义出来,然后躯壳部分通过API调用,调用方式可以是HTTP、webSocket等等,视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对来说成熟一些,但都是闭源的,效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+Face AR Sample(UE);3.实时性:由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。4.多元跨模态:仅仅是语音交互的数字人是远远不够的,人有五感(听觉、视觉、嗅觉、触觉、味觉),听觉只是其中一种,其他的感官可以根据实际需求来做,比如视觉我们可以通过添加摄像头数据来获取数据,再通过系列CV算法做图像解析等;5.拟人化场景:我们正常和人交流的时候不是线性对话,会有插话、转移话题等情况,这些情景如何通过工程丝滑处理。

黄仁勋在AI界超级碗GTC2024的主旨演讲: 精华及全文(附视频)

我们将讨论这个新行业的很多事情,包括接下来如何进行计算,您因这个新行业而构建的软件类型,新软件,您会如何看待这个新软件,以及这个新兴行业的应用情况。然后,我们也许会探讨接下来会发生什么,我们今天如何开始为接下来的事情做准备。在我开始之前,我想向您展示NVIDIA的灵魂。我们公司的灵魂位于计算机图形学、物理和人工智能的交叉点。所有这些都在计算机内部交叉,在Omniverse虚拟世界模拟中。我们今天要向您展示的所有内容,都是模拟,而非动画。它之所以美丽,是因为它是物理学。世界是美丽的。这太神奇了,因为它是用机器人制作的动画,是用人工智能制作的动画。您一整天都会看到的东西,都是在Omniverse中完全模拟生成的。您将要享受的是世界上第一场音乐会,一切都是自制的。您将要观看一些家庭视频,所以请坐下来尽情享受。我爱英伟达。加速计算已达到临界点。通用计算已经失去动力。我们需要另一种计算方式,这样我们就可以继续扩展,这样我们就可以继续降低计算成本,这样我们就可以继续消耗越来越多的计算。我们正在追求的是可持续性。加速计算已经在与通用计算的比较中展现出显著的优势。在我所参与的每一个行业中,我都有大量的案例可以向您展示。其影响力巨大,而且在任何行业中,它的重要性都超过了我们自己的行业。这些行业都在使用模拟工具来创建产品。这并不是为了降低计算成本,而是为了扩大计算规模。我们希望能够进行模拟,我们所做的整个产品都是完全高保真、完全数字化的,这就是我们所说的数字孪生。我们希望设计它、构建它、模拟它、操作它,完全数字化。为了实现这一目标,我们需要加速整个行业的发展。今天,我想宣布,我们有一些合作伙伴正在加入我们的旅程,他们将加速他们的整个生态系统,以便我们可以将世界带入加速计算的时代。

Others are asking
数据孪生 怎么在企业中搭建
在企业中搭建数字孪生可以参考以下要点: 1. 利用定制软件:如 Wistron 利用 Omniverse SDK 定制软件,将 NVIDIA DGX 和 HGX 工厂实现数字孪生,大幅缩短调试周期。 2. 集成多类数据:将 Multicad 和过程模拟数据虚拟集成到统一视图中,进行测试和优化布局。 3. 提高效率和缩短上线时间:如 Wistron 工厂使用数字孪生,工人效率提高 51%,上线时间缩短一半。 4. 验证物理构建与数字化计划的匹配:尽早发现差异,避免成本高昂的变更订单。 5. 快速测试新布局和改进操作:使用生产线上每台机器的实时物联网数据监控实时操作。 6. 与合作伙伴共同构建:如西门子正在构建工业元宇宙,并将其皇冠宝石加速器连接到 NVIDIA Omniverse。 未来,设施仓库、工厂建筑将由软件定义,在数字孪生中运行自主机器人堆栈,集成软件的方式是使用数字孪生。同时,NVIDIA 已将 Omniverse 变得更易访问,创建云 API,将其与语言聊天能力集成,可在 3D 环境中进行设计、模拟或生成。
2025-01-02
数字孪生
数字孪生是一个涉及多个领域的概念。在表演方面,曾测试过号称能做数字孪生的软件,结果发现存在一定局限性,如只是换脸的小变体且表现中庸。表演的本质是放大情感,通过强烈的情感表达来吸引观众。 在人际关系中,每个人都可能有一个由 AI 驱动的“数字双胞胎”,它接受了我们所有的写作和言语的训练,已经有人开始这样的探索。 在前期筹备方面,包括为患病老人构建能语音输出的数字人,如一位大哥为患病母亲自学 AI 构建数字人;还有 AI 相声,如为侯宝林、马三立、马季三位相声大师做数字化形象和声音建模;以及网站图片的生成和红包封面的探讨等相关工作。
2024-12-20
智能体是什么?设计框架及关键技术是什么?如何从通用大模型搭建一款智能体
智能体是建立在大模型之上的具有特定功能的系统。 其特点包括: 1. 强大的学习能力:能通过大量数据学习,理解和处理语言、图像等多种信息。 2. 灵活性:适应不同任务和环境。 3. 泛化能力:将学到的知识泛化到新情境,解决未见过的类似问题。 智能体的应用领域广泛,如: 1. 自动驾驶:感知周围环境并做出驾驶决策。 2. 家居自动化:根据环境和用户行为自动调节设备。 3. 游戏 AI:游戏中的对手角色和智能行为系统。 4. 金融交易:根据市场数据做出交易决策。 5. 客服聊天机器人:通过自然语言处理提供自动化客户支持。 6. 机器人:各类机器人中的智能控制系统。 设计和实现一个智能体通常涉及以下步骤: 1. 定义目标:明确需要实现的目标或任务。 2. 感知系统:设计传感器系统采集环境数据。 3. 决策机制:定义决策算法,根据感知数据和目标做出决策。 4. 行动系统:设计执行器或输出设备执行决策。 5. 学习与优化:若为学习型智能体,设计学习算法以改进。 从通用大模型搭建一款智能体,可参考以下流程: 本智能体的实现包含 3 个工作流和 6 个图像流,整体包含 171 个节点。采用单 Agent 管理多工作流策略,流程包括: 1. 信息聚合与数据挖掘:通过高度集成的数据采集机制,全面收集产品关键信息。 2. 卖点提炼与优化:运用先进的大模型分析信息,提炼具有市场竞争力和独特性的卖点。 3. 买点转化与策略应用:将卖点转化为消费者视角的买点,增强产品吸引力。 4. 视觉化信息呈现:设计直观且具有冲击力的卡片展示,确保信息传达的有效性和视觉吸引力。 5. 文案与脚本调整:根据目标受众偏好和媒体渠道,动态调整文案或脚本,实现内容的最佳适配。 6. 流程结果存储与分析:将处理结果系统化地存储到飞书,以供未来策略优化和决策支持。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-12-04
AI的关键技术有哪些,比如langchain
AI 的关键技术包括以下方面: 1. 编排(Orchestration):涉及到的公司如 DUST、FIAVIE、LangChain 等提供的工具帮助开发人员管理和协调各个部分和任务,以确保系统的流畅运行。 2. 部署、可扩展性和预训练(Deployment, Scalability & PreTraining):这个类别的公司如 UWA mosaicm、NMAREL、anyscale 等提供工具,帮助开发人员部署模型,保证模型的可扩展性,以及在模型使用前进行预训练。 3. 上下文和嵌入(Context & Embeddings):这个类别的公司如 TRUDO,Llamalndex,BerriAI 等提供工具,帮助模型处理和理解语言上下文,以及将词语和句子转化为计算机可以理解的形式。 4. 质量保证和可观察性(QA & Observability):这个类别的公司如 Pinecone,drant,Vald 等提供工具,以确保模型的表现,并能够监控模型的性能和状态。 LangChain 作为一个框架,具有以下特点和作用: 1. 与 RAG 的关系:作为一个框架,为 RAG 提供了实现所必需的工具和组件。允许开发者通过其模块化组件来构建 RAG 应用程序,简化了 RAG 应用程序的开发过程,提高性能,支持构建复杂的 RAG 应用,如智能问答系统、内容推荐引擎等。 2. 在 ProductHunt 2023 年度最佳产品榜单中的表现:入围了 AI Infra 类别,帮助 AI 创作者为他们的产品选择合适的 AI API 并在它们之间切换,快速创建和部署 LLM 插件或 LLM 应用程序,以及追踪和调试复杂的 LLM 应用程序。例如,Langfuse 为大模型应用提供开源可观测性和分析功能;Langdock 可在几分钟内创建、部署、测试和监控 ChatGPT 插件。
2024-09-19
开源的数字人工具
以下是一些开源的数字人工具: 1. 名称:aigcpanel 特点:开源且适合小白用户,具有一键安装包,无需配置环境,简单易用。 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub 链接: 官网链接: 2. 名称:HeyGen 特点:AI 驱动的平台,可创建逼真的数字人脸和角色。 适用场景:适用于游戏、电影和虚拟现实等应用。 3. 名称:Synthesia 特点:AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。 适用场景:支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 4. 名称:DID 特点:提供 AI 拟真人视频产品服务和开发,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2025-02-04
数字人
数字人是运用数字技术创造出来的人,虽现阶段不能像科幻作品中的人型机器人那样高度智能,但已在生活各类场景中常见,且随着 AI 技术发展正迎来应用爆发。目前业界对其尚无准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货,其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过视觉算法进步使在无昂贵动捕设备时,通过摄像头捕捉人体骨骼和人脸关键点信息也能有不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,能创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真会说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 以下是一些包含数字人的节目单示例: 1. 猜真人:2 个、8 个数字分身,判断哪个是真正的我,属于魔术互动类表演,需求技术为 AI 数字人。 2. 亲情的应用场景(逝者):女儿打扫房间扫到去世父亲的二维码再次对话,涉及 AI 分身的积累准备。 3. AI 转绘:对最酷的电影进行混剪,涉及短片素材、AI 转绘、Lora 等。 4. AI 贺岁:晚会中场,数字人与团队致谢,包括共创团队记录、新年祝福等。 5. 打工人共情:涉及 AI 素材、共情脚本、炫技视频剪辑等。
2025-02-03
生成数字人
以下是关于生成数字人的相关内容: 在剪映中生成数字人: 打开剪映右侧窗口顶部的“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 增加背景图片:删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),拖动轨道最右侧竖线使其与视频对齐,选中背景图片轨道,拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。 增加字幕:点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角“导出”按钮导出视频备用。 制作数字人的工具: HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音,合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。
2025-02-02
ai数字人直播怎么弄
以下是关于 AI 数字人直播的相关信息: 1. 盈利方式: 直接卖数字人工具软件,实时驱动的一年 4 6 万往上,非实时驱动的一个月 600 元,市场价格较混乱。 提供数字人运营服务,按直播间成交额抽佣。 2. 适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;虚拟商品,如门票、优惠券等。 电商直播中店播效果较好,不适用于促销场景和服装品类。 3. 壁垒和未来市场格局: 长期来看技术上没壁垒,目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 把客户服务好、能规模化扩张的公司更有价值。 有资源、有业务的大平台下场可能带来降维打击。 此外,目前业界对数字人的定义还不明确,一般可根据技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业和直播带货。
2025-02-02
数字人工具
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 此外,还有适合小白用户的开源数字人工具,具有以下特点: 一键安装包,无需配置环境,简单易用。 功能包括生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容 Windows、Linux、macOS。 模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤为下载 8G+3G 语音模型包,启动模型即可。 相关链接: GitHub: 官网: 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。内容由 AI 大模型生成,请仔细甄别。
2025-02-02
我想要能代替我直播的数字人工具
以下是一些能代替您直播的数字人工具相关信息: 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(柳夜熙)、内容创作等。 2. 真人形象数字人:用于直播卖货、营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等。 数字人的价值: 1. 代替人说话,提升表达效率和营销效率,例如真人做不到 24 小时直播,但数字人可以。 2. 创造真实世界无法完成的对话或交流。 数字人面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,而微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间,依赖大模型技术提升。 3. 需求限制:直播带货算个落地场景,但不刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制:声音、影像版权等,比如换脸、数字永生等等。 数字人直播盈利方式: 1. 直接卖数字人工具软件。分实时驱动和非实时驱动两类,实时驱动在直播时能改音频话术,真人接管。市面价格在一年 4 6 万往上(标准零售价)。非实时一个月 600 元,效果很差,类似放视频的伪直播,市场价格混乱,靠发展代理割韭菜。 2. 提供数字人运营服务,按直播间成交额抽佣。 AI 直播卖货适用品类和场景: 1. 适用于不需要强展示的商品,如品牌食品饮料。如果服装就搞不了,过品快,衣服建模成本高。 2. 适用于虚拟商品,如门票、优惠券等。 3. 不适用于促销场景,这涉及主播话术、套路,调动直播间氛围能力等。 4. 电商直播分为达播跟店播,数字人直播跑下来效果最好的是店播,数据基本能保持跟真人一样(朋友公司数据)。 AI 直播的壁垒和未来市场格局: 1. 时间拉长,技术上没壁垒。但目前看仍有技术门槛,单纯靠开源算法拼的东西,实时性、可用性不高。比如更真实的对口型,更低的响应延迟等。 2. 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。因为它只是工具,迁移成本低。 3. 真正把客户服务好,能规模化扩张的公司更有价值。疯狂扩代理割韭菜,不考虑客户效果的公司,售后问题很麻烦。 4. 有资源、有业务的大平台下场,可能会带来降维打击,例如剪映马上要做,如果不仅提供数字人,还提供货品供应链、数据复盘分析等等,全环节打通会绑定商家,很难打。 虚拟主播的驱动方式: 目前,虚拟数字人从技术驱动方式上可以分为两类,一种是“中之人”驱动,另一种是由 AI 驱动。 “中之人”通过动作捕捉和面部捕捉技术,实现虚拟人与现实的交互。动作捕捉技术可以提供一套全身动捕硬件设备,售价约为 29000 元,另需缴纳 800 元的软件年度服务费。如果只需要捕捉面部表情,价格则约为 6000 元左右。总的来说,“中之人”是虚拟人物的“皮囊”,而“中之人”才是其真正的灵魂。 AI 驱动是通过 AI 技术实现虚拟人的创建、驱动和内容生成的综合技术,使其具备感知、表达等交互能力。AI 驱动的虚拟人能够智能地读取并解析外部输入信息,并根据解析结果做出决策,然后驱动人物模型生成相应的语音和动作,从而与用户进行互动。这种“一站式”技术让虚拟数字人具备更加自然、智能、人性化的交互能力。
2025-01-31