Chat with Wiki - Dreamface数字人

Answer

以下是关于 Dreamface 数字人的相关信息：

生成数字人：在剪映右侧窗口顶部打开“数字人”选项，选取免费且适合的数字人形象，如“婉婉-青春”。选择后软件会播放其声音，可判断是否需要，点击右下角“添加数字人”将其添加到当前视频中，软件会生成对应音视频并添加到轨道中，左下角会提示渲染完成时间，可点击预览查看效果。

增加背景图片：可删除先前导入的文本内容，为视频增加背景图片。点击左上角“媒体”菜单并“导入”选择本地图片上传，将图片添加到视频轨道上（会覆盖数字人），将轨道右侧竖线向右拖拽使其与视频对齐，选中轨道后可调整图片尺寸和数字人位置。

虚拟数字人的分类和驱动方式：虚拟数字人通过各种技术创造，具有人类特征，呈现为虚拟形象。从驱动层面分为中之人驱动和 AI 驱动。中之人驱动运用动作捕捉和面部捕捉技术实现交互，有上限且缺乏高并发和量产化能力；AI 驱动使用 AI 技术创建、驱动和生成内容，赋予感知和表达等交互能力。从应用层面可分为服务型、表演型和身份型。服务型如虚拟主播、助手、教师、客服和医生等，表演型如虚拟偶像，身份型是物理世界“真人”的数字分身。

构建高质量 AI 数字人的要点：

AI Agent：要让数字人像人一样思考需编写类似人的 Agent，记忆模块、工作流模块和工具调用模块的构建是挑战。
驱动躯壳的实现：定义灵魂部分接口，躯壳通过 API 调用，方式视躯壳实现而定。包含情绪的语音表达及保证躯壳口型、表情、动作和语音的同步及匹配，目前主流方案只能预设表情动作和做逻辑判断播放预设，语音驱动口型相对成熟但闭源。
实时性：数字人算法组成庞大，几乎不能单机部署，算法一般部署到额外集群或调用 API，网络耗时和模型推理耗时会影响体验，低延时是需解决的问题。
多元跨模态：仅语音交互不够，可根据需求添加其他感官，如通过摄像头数据获取视觉信息并做图像解析。
拟人化场景：正常与人交流非线性，插话、转移话题等情况需通过工程丝滑处理。

Content generated by AI large model, please carefully verify (powered by aily)

References

实战：每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法！

3.1生成数字人在剪映右侧窗口顶部，我们打开“数字人”选项，选取一位免费的、适合的数字人形象，这里我选择“婉婉-青春”。当你选择一个数字人形象时，软件会马上播放出该数字人的声音。你可以判断是否是你需要的，点击右下角的“添加数字人”，就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容，来生成对应音视频，并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮，查看生成的数字人效果。3.2增加背景图片接下来，可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道，或者点击软件中间文字内容，按删除键删去文字：为了让视频更美观，我们为视频增加背景图片。当然你可以增加多个背景图片，为简化演示，这里增加1张图片。点击左上角的“媒体”菜单，并点击“导入”按钮，来选择本地的一张图片上传：我选择一张书架图片上传，然后像添加文字内容一样，点击图片右下角的加号，将这个图片添加到视频的轨道上（会覆盖数字人）：此时，书架图片就会在视频轨道的下面，添加一条新轨道：为了让图片在整个视频播放的时候都显示，可以点击这个轨道最右侧的竖线，向右拖拽，直到视频的最后，也就是和视频对齐：此时，背景图片所在的轨道是选中状态。如果没选中，鼠标点击一下这个规定即可。在显示区域，拖动背景图的一个角，将图片放大到适合的尺寸，比如覆盖视频窗口。并将数字人拖动到合适的位置:

虚拟数字人，好看的皮囊有什么价值？

虚拟数字人是通过各种技术创造出来的，具有多种人类特征，比如外观、行为和思想，被呈现为虚拟形象。从驱动层面来说，虚拟数字人可以分为两类：中之人驱动和AI驱动。其中，中之人驱动运用动作捕捉和面部捕捉技术实现虚拟人与现实的交互；而AI驱动则使用AI技术创建、驱动和生成虚拟人的内容，从而赋予其感知和表达等交互能力。中之人驱动的数字人有其上限，缺乏高并发和量产化的能力，可以看做是真人“披着虚拟外皮”的产物。ChatGPT的出现催动了新一轮AI技术的浪潮，不少虚拟数字人厂商都在争相宣称自己的产品将会接入ChatGPT，赋予数字人智慧的大脑。只有通过AI技术让虚拟人“虚拟”得彻底，才能够释放出更高的价值。从应用层面来看，虚拟数字人可分为服务型、表演型和身份型三大类。服务型虚拟数字人，如虚拟主播、虚拟助手、虚拟教师、虚拟客服和虚拟医生等，主要为物理世界提供各种服务。典型代表有冯小殊、崔筱盼、观君等。表演型虚拟数字人，如虚拟偶像等，主要用于娱乐、影视等场景，例如虚拟偶像演唱会。典型代表有洛天依、AYAYI、柳夜熙等。身份型虚拟数字人是物理世界的“真人”进入虚拟世界的数字分身，在元宇宙中，数字分身有广泛的应用场景。本文讨论的虚拟数字人是AI驱动的，主要集中于服务型虚拟数字人。强调服务型虚拟数字人具有功能属性，隶属于业务层。文章仅探讨AI创造出的虚拟“皮囊”可以带来什么价值。

AI 数字人-定义数字世界中的你

有了数字人躯壳，我们就需要构建数字人的灵魂，让数字人具备各种智能，比如记得你的个人信息，充当你的个人助手；在某个领域具备更专业的知识；能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点：1.AI Agent：我们要想数字人像人一样思考就需要写一个像人一样的Agent，工程实现所需的记忆模块，工作流模块、各种工具调用模块的构建都是挑战；2.驱动躯壳的实现：灵魂部分怎样去驱动躯壳部分，我们可以将灵魂部分的所有接口定义出来，然后躯壳部分通过API调用，调用方式可以是HTTP、webSocket等等，视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配，目前主流方案只能做到预设一些表情动作，再做一些逻辑判断来播放预设，语音驱动口型相对来说成熟一些，但都是闭源的，效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+Face AR Sample(UE)；3.实时性：由于整个数字人的算法部分组成庞大，几乎不能实现单机部署，特别是大模型部分，所以算法一般会部署到额外的集群或者调用提供出来的API，这里面就会涉及到网络耗时和模型推理耗时，如果响应太慢就会体验很差，所以低延时也是亟需解决的一个问题。4.多元跨模态：仅仅是语音交互的数字人是远远不够的，人有五感(听觉、视觉、嗅觉、触觉、味觉)，听觉只是其中一种，其他的感官可以根据实际需求来做，比如视觉我们可以通过添加摄像头数据来获取数据，再通过系列CV算法做图像解析等；5.拟人化场景：我们正常和人交流的时候不是线性对话，会有插话、转移话题等情况，这些情景如何通过工程丝滑处理。