Chat with Wiki - 最新的开源数字人项目

Answer

以下是一些最新的开源数字人项目：

项目地址：https://github.com/wan-h/awesome-digital-human-live2d ，选择了 live2d 作为数字人躯壳，其驱动方式相比 AI 生成式更可控和自然，相比虚幻引擎更轻量和简单，卡通二次元形象接受度更高。Live2D 的 SDK 驱动方式可参考官方示例：https://github.com/Live2D 。
开源数字人组合方案：
- 第一步：先剪出音频，使用 https://elevenlabs.io/speech-synthesis 或使用 GPT-sovitsGPT-SoVITS 实现声音克隆克隆声音，做出文案的音频。
- 第二步：使用 wav2lip 整合包，导入视频和音频，对口型得到视频。基础 wav2lip+高清修复整合包下载地址：https://github.com/Rudrabha/Wav2Lip 。产品：https://synclabs.so/ 。
构建数字人灵魂：可借助开源社区的力量，如 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中使用了 dify 的框架，可利用其编排和可视化交互任意修改流程，构造不同的 AI Agent，具体部署过程参考 B 站视频：https://www.bilibili.com/video/BV1kZWvesE25 。如有更高度定制的模型，也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块，便于扩展。

Content generated by AI large model, please carefully verify (powered by aily)

References

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.1构建数字人躯壳建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署，最后呈现在用户面前的是一个GUI。笔者的开源数字人项目（项目地址：https://github.com/wan-h/awesome-digital-human-live2d）选择了live2d作为数字人躯壳，因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单；另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例：https://github.com/Live2D。

开源：数字人组合方案

先剪出音频，使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音，做出文案的音频。[heading2]第二步[content]使用wav2lip整合包，导入视频和音频，对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案，效果都差不多，都是用的wav2lip产品https://synclabs.so/

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.2构建数字人灵魂上述种种，如果都要自建代码实现各模块，开发工作量巨大，迭代难度也很高，对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量，现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架，它们有大量的开源工作者维护，集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent，赋予数字人灵魂。在笔者的开源项目中，使用了dify的框架，利用其编排和可视化交互任意修改流程，构造不同的AI Agent，并且实现相对复杂的功能，比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口，基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制，从而低门槛做出来自己高度定制化的数字人（如下图），具体的部署过程参考B站视频：https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型，也可以在Dify中接入XInference等模型管理平台，然后部署自己的模型。此外，数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块，能够保持更好的扩展，比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。