数字人 -WayToAGI

回答

数字人是运用数字技术创造出来的人，目前业界尚无准确定义，一般可根据技术栈分为两类：

真人驱动的数字人：重在通过动捕设备或视觉算法还原真人动作表情，主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关，不过随着视觉算法进步，在无昂贵动捕设备时，也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
算法驱动的数字人：
- 算法开源代码仓库：
  - ASR 语音识别：
    - openai 的 whisper：https://github.com/openai/whisper
    - wenet：https://github.com/wenet-e2e/wenet
    - speech_recognition（语音识别接口集合）：https://github.com/Uberi/speech_recognition
  - AI Agent：大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可用 LangChain 模块自定义，包含 Agent 实现的几个组件（https://www.langchain.com/）
  - TTS：
    - 微软的 edge-tts：https://github.com/rany2/edge-tts，只能使用预设人物声音，目前接口免费。
    - VITS：https://github.com/jaywalnut310/vits，有很多分支版本。
    - so-vits-svc：https://github.com/svc-develop-team/so-vits-svc，专注于唱歌，如前段时间很火的 AI 孙燕姿。
- 人物建模模型可通过手动建模（音频驱动）或 AIGC 方式生成人物动态效果（如 wav2lip 模型），但简单构建方式存在一些问题，如生成指定人物声音、TTS 生成音频精确驱动数字人口型及动作、数字人使用知识库做出专业回答等。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

这类数字人重在通过动捕设备或视觉算法还原真人动作表情，主要应用于影视行业以及现下很火热的直播带货，其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关，不过随着视觉算法的不断进步，现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息，从而做到不错的效果。

爱的传承·数字母亲

[title]爱的传承·数字母亲内容负责人：朱睿电子酒统筹负责人：张小琳电子酒摄影：万阳剪辑：萧川布丁子健数字人：大萌子使用工具：剪辑：剪映imovie美图秀秀数字人：heygen电子酒：“还有一个节目是数字母亲这个节目是早早就记在心里的我曾经想通过数字墓园的形式呼吁大家保存亲人影像资料后来回溯这个节目的初心其实就是在卡兹克的群里看到的朱哥本人的一段话我干脆就找到了当事人邀请他和母亲接受采访朱哥和母亲很豁达地接受了邀约为了完成数字人的拍摄，朱妈妈吃了4片吗啡我相信这一切的付出都是为了和我们一起向外界面传递一些信号2月4号制作完数字人2月5号拍摄布丁川川子健凌晨开始剪辑协调补拍追加了很多镜头朱哥也熬了几个通宵来丰满素材最后呈现的效果虽然不完美但我相信这部片子仍然具有一定的社会价值”继续记录中

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]一、数字人简介[heading4]1.2算法驱动的数字人上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。除了算法，人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？