直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

数字人

回答

数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为两类:

  1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时,也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
  2. 算法驱动的数字人:
    • 算法开源代码仓库:
      • ASR 语音识别:
        • openai 的 whisper:https://github.com/openai/whisper
        • wenet:https://github.com/wenet-e2e/wenet
        • speech_recognition(语音识别接口集合):https://github.com/Uberi/speech_recognition
      • AI Agent:大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可用 LangChain 模块自定义,包含 Agent 实现的几个组件(https://www.langchain.com/)
      • TTS:
        • 微软的 edge-tts:https://github.com/rany2/edge-tts,只能使用预设人物声音,目前接口免费。
        • VITS:https://github.com/jaywalnut310/vits,有很多分支版本。
        • so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注于唱歌,如前段时间很火的 AI 孙燕姿。
    • 人物建模模型可通过手动建模(音频驱动)或 AIGC 方式生成人物动态效果(如 wav2lip 模型),但简单构建方式存在一些问题,如生成指定人物声音、TTS 生成音频精确驱动数字人口型及动作、数字人使用知识库做出专业回答等。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AI 数字人-定义数字世界中的你

这类数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。

爱的传承·数字母亲

[title]爱的传承·数字母亲内容负责人:朱睿电子酒统筹负责人:张小琳电子酒摄影:万阳剪辑:萧川布丁子健数字人:大萌子使用工具:剪辑:剪映imovie美图秀秀数字人:heygen电子酒:“还有一个节目是数字母亲这个节目是早早就记在心里的我曾经想通过数字墓园的形式呼吁大家保存亲人影像资料后来回溯这个节目的初心其实就是在卡兹克的群里看到的朱哥本人的一段话我干脆就找到了当事人邀请他和母亲接受采访朱哥和母亲很豁达地接受了邀约为了完成数字人的拍摄,朱妈妈吃了4片吗啡我相信这一切的付出都是为了和我们一起向外界面传递一些信号2月4号制作完数字人2月5号拍摄布丁川川子健凌晨开始剪辑协调补拍追加了很多镜头朱哥也熬了几个通宵来丰满素材最后呈现的效果虽然不完美但我相信这部片子仍然具有一定的社会价值”继续记录中

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]一、数字人简介[heading4]1.2算法驱动的数字人上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?

其他人在问
数字人聊天
以下是关于数字人聊天的相关信息: 数字人脸创作方式: 1. 使用一系列逼真的照片或插图人脸,这些人脸经过优化,在添加语音和动作时能实现最佳效果。 2. 上传自己、朋友或家人的面部照片进行创作。 3. 利用 DID 自带的 Stable Diffusion 的能力生成想象中的人脸,如描述“一个外星女神”“一个微笑的十九世纪维多利亚绅士”等。 数字人像被添加到人脸库后,可重复使用,只需输入新脚本,就能让其说任何想让它说的话。 数字人说话方式: 1. 利用 GPT3 文本生成技术撰写脚本。 2. 先选好脸,再输入脚本。 3. 输入准备好的脚本,DID 中有数百种语言和口音,可选择想要使用的声音,并调整角色说话风格。 4. 上传自己的音频记录,或从电影、电视剧中剪辑喜欢的台词,甚至吟唱自编的歌曲。 AI 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(如柳夜熙)、内容创作()等。 2. 真人形象数字人:用于直播卖货、营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等。 AI 数字人的价值: 1. 代替人说话,提升表达效率和营销效率,如真人无法 24 小时直播,数字人可以。 2. 创造真实世界无法完成的对话或交流,例如 AI talk 的实验探索,复活故去的亲人等。 AI 数字人面临的问题: 1. 平台限制:数字人水平参差不齐,平台担心直播观感,有一定打压限制。如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货是落地场景,但不够刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制:声音、影像版权等,比如换脸、数字永生等。 面对大厂竞争的策略: 1. 大厂做产品有很多部门利益牵扯,法务合规等问题,不敢用野路子,开发上线产品效率低。 2. 大厂人工成本高,不少方向和领域都不会做,内部决策不一定靠谱。 3. 在电商领域,数字人不能也无法成为壁垒,跟数字人配套的运营服务才是,大厂一般不愿做重运营的事。
2024-11-04
有哪些制作数字人的网站和软件
以下是一些制作数字人的网站和软件: 1. HeyGen:这是一个 AI 驱动的平台,能够创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。它支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。 此外,在剪映中也可以制作数字人:在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中。还可以为数字人增加背景图片等进行美化。
2024-11-03
数字人平台
以下是关于数字人平台的相关信息: 制作数字人的工具: HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,适用于游戏、电影和虚拟现实等。 Synthesia:AI 视频制作平台,能创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等。 DID:上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的会开口说话的视频。 更多工具可访问网站查看:https://www.waytoagi.com/category/42 。使用时请遵守相关条款和政策,注意版权和伦理责任。 7 月 2 日张晟、汗青的讨论: AI 数字人类型和应用场景:二维/三维虚拟人用于游戏、IP 品牌、内容创作等;真人形象数字人用于直播卖货、营销/投流广告视频录制、语言学习等。 AI 数字人的价值:代替人说话,提升表达和营销效率;创造真实世界无法完成的对话或交流。 AI 数字人面临的问题:平台限制,如水平参差不齐,平台有打压限制;技术限制,形象依赖大模型技术提升;需求限制,直播带货是落地场景但不够刚需,更多是体验新鲜感;伦理/法律限制,如声音、影像版权等。 延伸阅读报告: ,东方证券,2023/04/26 。 ,广发证券,2023/06/18 。 ,亿邦智库,2023/09/01 。 ,西南证券,2023/08/12 。 ,清华大学新闻与传播学院,2023/07/29 。 ,国盛证券,2023/03/13 。 ,中国网络视听协会人民日报智慧媒体研究院中国传媒大学动画与数字艺术学院元力趋势网,2024/01/01 。 ,上海市人工智能技术协会、零壹智库、增强现实核心技术产业联盟、商汤科技,2024/04/11 。
2024-11-02
数字人直播
以下是关于数字人直播的相关信息: 会议讨论要点: 目前做数字人电商直播,可能只是因为前期宣传及未发现其他更好场景。 数字人配套的运营服务才是电商领域的关键,续费客户多因服务而非数字人本身。 数字人直播在店播场景效果较好,数据能与真人相当。 不建议商家依赖数字人,现阶段数字人服务多为辅助。 盈利方式: 直接卖数字人工具软件,分实时驱动(一年 4 6 万往上)和非实时驱动(一个月 600 元,效果差,市场价格混乱)两类。 提供数字人运营服务,按直播间成交额抽佣。 适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;不适用于服装,过品快且衣服建模成本高。 适用于虚拟商品,如门票、优惠券等。 不适用于促销场景,涉及主播话术、套路及调动直播间氛围能力等。 店播场景效果最佳,数据基本能保持跟真人一样。 壁垒和未来市场格局: 长期看技术上无壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 能把客户服务好、规模化扩张的公司更有价值,疯狂扩代理割韭菜的公司售后问题多。 有资源、有业务的大平台下场可能带来降维打击,如全环节打通会绑定商家。 数字人简介: 数字人是运用数字技术创造出来的,虽现阶段不能高度智能,但在生活各类场景中已常见。业界尚无准确定义,一般按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,应用于影视和直播带货,表现质量与建模精细度及动捕设备精密程度相关,视觉算法进步使无昂贵设备也能有不错效果。
2024-11-01
实景数字人
以下是关于实景数字人的相关信息: AI 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(如柳夜熙)、内容创作()等。 2. 真人形象数字人:用于直播卖货,营销/投流广告视频录制(如 Heygen)、语言学习(如 CallAnnie)等。 AI 数字人的价值: 1. 代替人说话,提升表达效率和营销效率。例如真人无法 24 小时直播,但数字人可以。 2. 创造真实世界无法完成的对话或交流。比如 AI talk 的实验探索,复活故去的亲人等。 AI 数字人面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货是落地场景,但不够刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制:存在声音、影像版权等问题,比如换脸、数字永生等。 如何构建高质量的 AI 数字人: 1. 构建数字人灵魂:让数字人具备各种智能,如记住个人信息、充当个人助手、在某个领域具备专业知识、处理复杂任务等。实现这些能力有几个工程关键点,包括写像人一样思考的 AI Agent,面临记忆模块、工作流模块、工具调用模块的构建挑战;灵魂部分驱动躯壳的实现,要定义灵魂部分的接口,躯壳通过 API 调用,注意包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做逻辑判断来播放预设,语音驱动口型相对成熟但闭源;要解决实时性问题,由于算法部分庞大,几乎不能单机部署,特别是大模型部分,会涉及网络耗时和模型推理耗时,低延时是亟需解决的问题;实现多元跨模态,不仅是语音交互,还可根据需求添加其他感官,如视觉通过添加摄像头数据和 CV 算法做图像解析等;处理拟人化场景,如插话、转移话题等情况,实现工程上的丝滑处理。 2. 虚拟数字人的分类和驱动方式:从驱动层面分为中之人驱动和 AI 驱动。中之人驱动运用动作捕捉和面部捕捉技术实现交互,有上限,缺乏高并发和量产化能力。AI 驱动使用 AI 技术创建、驱动和生成内容,赋予交互能力。从应用层面分为服务型、表演型和身份型。服务型虚拟数字人如虚拟主播、助手、教师、客服和医生等,为物理世界提供服务。表演型如虚拟偶像用于娱乐、影视等。身份型是物理世界“真人”的数字分身,在元宇宙中有广泛应用。 以上讨论的虚拟数字人是 AI 驱动的,主要集中于服务型虚拟数字人,强调其具有功能属性,隶属于业务层。
2024-11-01
最新的开源数字人项目
以下是一些最新的开源数字人项目: 1. 项目地址:https://github.com/wanh/awesomedigitalhumanlive2d ,选择了 live2d 作为数字人躯壳,其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单,卡通二次元形象接受度更高。Live2D 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。 2. 开源数字人组合方案: 第一步:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。产品:https://synclabs.so/ 。 3. 构建数字人灵魂:可借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中使用了 dify 的框架,可利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,便于扩展。
2024-11-01