Chat with Wiki - 实景数字人

Answer

以下是关于实景数字人的相关信息：

AI 数字人类型和应用场景：

二维/三维虚拟人：用于游戏、IP 品牌（如柳夜熙）、内容创作（http://AI.talk）等。
真人形象数字人：用于直播卖货，营销/投流广告视频录制（如 Heygen）、语言学习（如 CallAnnie）等。

AI 数字人的价值：

代替人说话，提升表达效率和营销效率。例如真人无法 24 小时直播，但数字人可以。
创造真实世界无法完成的对话或交流。比如 AI talk 的实验探索，复活故去的亲人等。

AI 数字人面临的问题：

平台限制：目前数字人水平参差不齐，平台担心直播观感，有一定打压限制。比如抖音出台一些标准，微信视频号容忍度更低，人工检查封号。
技术限制：形象只是皮囊，智能水平和未来想象空间依赖大模型技术提升。
需求限制：直播带货是落地场景，但不够刚。“懂得都懂”的刚需场景，国内搞不了。目前更多是体验新鲜感。
伦理/法律限制：存在声音、影像版权等问题，比如换脸、数字永生等。

如何构建高质量的 AI 数字人：

构建数字人灵魂：让数字人具备各种智能，如记住个人信息、充当个人助手、在某个领域具备专业知识、处理复杂任务等。实现这些能力有几个工程关键点，包括写像人一样思考的 AI Agent，面临记忆模块、工作流模块、工具调用模块的构建挑战；灵魂部分驱动躯壳的实现，要定义灵魂部分的接口，躯壳通过 API 调用，注意包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做逻辑判断来播放预设，语音驱动口型相对成熟但闭源；要解决实时性问题，由于算法部分庞大，几乎不能单机部署，特别是大模型部分，会涉及网络耗时和模型推理耗时，低延时是亟需解决的问题；实现多元跨模态，不仅是语音交互，还可根据需求添加其他感官，如视觉通过添加摄像头数据和 CV 算法做图像解析等；处理拟人化场景，如插话、转移话题等情况，实现工程上的丝滑处理。
虚拟数字人的分类和驱动方式：从驱动层面分为中之人驱动和 AI 驱动。中之人驱动运用动作捕捉和面部捕捉技术实现交互，有上限，缺乏高并发和量产化能力。AI 驱动使用 AI 技术创建、驱动和生成内容，赋予交互能力。从应用层面分为服务型、表演型和身份型。服务型虚拟数字人如虚拟主播、助手、教师、客服和医生等，为物理世界提供服务。表演型如虚拟偶像用于娱乐、影视等。身份型是物理世界“真人”的数字分身，在元宇宙中有广泛应用。

以上讨论的虚拟数字人是 AI 驱动的，主要集中于服务型虚拟数字人，强调其具有功能属性，隶属于业务层。

Content generated by AI large model, please carefully verify (powered by aily)

References

7月2日张晟、汗青讨论数字人

1.二维/三维虚拟人：用于游戏、IP品牌（柳夜熙）、内容创作（[http://AI.talk](https://t.co/EM7nnuMohc)）等。2.真人形象数字人：用于直播卖货，营销/投流广告视频录制（Heygen）、语言学习（CallAnnie）等等。[heading2]AI数字人的价值是什么？[content]1.代替人说话，提升表达效率和营销效率。比如真人做不到24小时直播，但数字人可以。2.创造真实世界无法完成的对话或交流。例如AI talk的实验探索，复活故去的亲人等。[heading2]AI数字人面临的问题？[content]平台限制：目前数字人水平参差不齐，平台担心直播观感，有一定打压限制。比如抖音出台一些标准，而微信视频号容忍度更低，人工检查封号。技术限制：形象只是皮囊，智能水平和未来想象空间，依赖大模型技术提升。需求限制：直播带货算个落地场景，但不刚。“懂得都懂”的刚需场景，国内搞不了。目前更多是体验新鲜感。伦理/法律限制：声音、影像版权等，比如换脸、数字永生等等。

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.2构建数字人灵魂有了数字人躯壳，我们就需要构建数字人的灵魂，让数字人具备各种智能，比如记得你的个人信息，充当你的个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点：1.AI Agent：我们要想数字人像人一样思考就需要写一个像人一样的Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战；2.驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过API调用，调用方式可以是HTTP、webSocket等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+ Face AR Sample(UE)；3.实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。4.多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感(听觉、视觉、嗅觉、触觉、味觉)，听觉只是其中一种，其他的感官可以根据实际需求来做，比如视觉我们可以通过添加摄像头数据来获取数据，再通过系列CV算法做图像解析等；5.拟人化场景：我们正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景如何通过工程丝滑处理。

虚拟数字人，好看的皮囊有什么价值？

虚拟数字人是通过各种技术创造出来的，具有多种人类特征，比如外观、行为和思想，被呈现为虚拟形象。从驱动层面来说，虚拟数字人可以分为两类：中之人驱动和AI驱动。其中，中之人驱动运用动作捕捉和面部捕捉技术实现虚拟人与现实的交互；而AI驱动则使用AI技术创建、驱动和生成虚拟人的内容，从而赋予其感知和表达等交互能力。中之人驱动的数字人有其上限，缺乏高并发和量产化的能力，可以看做是真人“披着虚拟外皮”的产物。ChatGPT的出现催动了新一轮AI技术的浪潮，不少虚拟数字人厂商都在争相宣称自己的产品将会接入ChatGPT，赋予数字人智慧的大脑。只有通过AI技术让虚拟人“虚拟”得彻底，才能够释放出更高的价值。从应用层面来看，虚拟数字人可分为服务型、表演型和身份型三大类。服务型虚拟数字人，如虚拟主播、虚拟助手、虚拟教师、虚拟客服和虚拟医生等，主要为物理世界提供各种服务。典型代表有冯小殊、崔筱盼、观君等。表演型虚拟数字人，如虚拟偶像等，主要用于娱乐、影视等场景，例如虚拟偶像演唱会。典型代表有洛天依、AYAYI、柳夜熙等。身份型虚拟数字人是物理世界的“真人”进入虚拟世界的数字分身，在元宇宙中，数字分身有广泛的应用场景。本文讨论的虚拟数字人是AI驱动的，主要集中于服务型虚拟数字人。强调服务型虚拟数字人具有功能属性，隶属于业务层。文章仅探讨AI创造出的虚拟“皮囊”可以带来什么价值。