Chat with Wiki - 开源项目数字人

Answer

以下是关于开源项目数字人的相关内容：

一、构建高质量的 AI 数字人

构建数字人躯壳
- 建好的模型可以使用 web 前端页面（Live2D 就提供了 web 端的 SDK）或者 Native 的可执行程序进行部署，最后呈现在用户面前的是一个 GUI。
- 开源数字人项目选择了 live2d 作为数字人躯壳，因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单。
- 卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例：https://github.com/Live2D 。
构建数字人灵魂
- 自建代码实现各模块开发工作量巨大，迭代难度高，对于个人开发者不现实。
- 推荐借助开源社区的力量，如 dify、fastgpt 等成熟的高质量 AI 编排框架，它们有大量开源工作者维护，集成各种主流的模型供应商、工具以及算法实现等。
- 在开源项目中，使用了 dify 的框架，利用其编排和可视化交互任意修改流程，构造不同的 AI Agent，并且实现相对复杂的功能，比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。
- Dify 的 API 暴露了 audio-to-text 和 text-to-audio 两个接口，基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制，从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频：https://www.bilibili.com/video/BV1kZWvesE25 。
- 如果有更加高度定制的模型，也可以在 Dify 中接入 XInference 等模型管理平台，然后部署自己的模型。
- 数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块，能够保持更好的扩展。
上述 Dify 接口使用注意事项：
- 必须在应用编排功能中打开文字转语音和语音转文字功能，否则接口会返回未使能的错误。
- 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商，才会在功能板块中展示出来，Dify 的模型供应商图标下标签有展示该供应商支持哪些功能，这里可以自行选择自己方便使用的。对于 TTS，不同的模型供应商支持的语音人物不同，可以根据个人喜好添加。

二、写在最后

数字人在未来肯定会有很多的应用场景，比如家庭中有数字人管家，全面接管智能家居或其他设备；学校中有数字人老师，孜孜不倦的为学生答疑解惑；商场里有数字人导购，为顾客提供指路、托管个人物品等悉心服务。

数字人在未来肯定还有很多的技术突破，比如可以将五感数据作为输入（例如声音、图像、气味、震动等等），将所有可以控制躯壳的参数也作为输入（例如躯壳骨骼节点，面部混合形状参数等）；次世代的算法可以自我迭代升级，也可以拿到感官输入以及躯壳控制方法后，自行演化躯壳控制方式。

作者希望通过 Dify 搭建数字人的开源项目，给大家展现低门槛高度定制数字人的基本思路，但数字人的核心还是在于我们的 Agent，也就是数字人的灵魂，怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到，随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确，用户在需要使用 AI 的能力时，AI 既可以给你提供高质量的信息，也能关注到你的情绪，给你一个大大的微笑，也许到了那时，数字世界也开始有了温度。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署，最后呈现在用户面前的是一个GUI。笔者的开源数字人项目（项目地址：https://github.com/wan-h/awesome-digital-human-live2d）选择了live2d作为数字人躯壳，因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单；另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例：https://github.com/Live2D。

AI 数字人-定义数字世界中的你

数字人在未来肯定会有很多的应用场景，比如家庭中有数字人管家，全面接管智能家居或其他设备；学校中有数字人老师，孜孜不倦的为学生答疑解惑；商场里有数字人导购，为顾客提供指路、托管个人物品等悉心服务...数字人在未来肯定还有很多的技术突破，比如可以将五感数据作为输入(例如声音、图像、气味、震动等等)，将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点，面部混合形状参数等)；次世代的算法可以自我迭代升级，也可以拿到感官输入以及躯壳控制方法后，自行演化躯壳控制方式...笔者希望通过Dify搭建数字人的开源项目，给大家展现低门槛高度定制数字人的基本思路，但数字人的核心还是在于我们的Agent，也就是数字人的灵魂，怎样在Dify上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到，随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确，用户在需要使用AI的能力时，AI既可以给你提供高质量的信息，也能关注到你的情绪，给你一个大大的微笑，也许到了那时，数字世界也开始有了温度。

AI 数字人-定义数字世界中的你

上述种种，如果都要自建代码实现各模块，开发工作量巨大，迭代难度也很高，对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量，现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架，它们有大量的开源工作者维护，集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent，赋予数字人灵魂。在笔者的开源项目中，使用了dify的框架，利用其编排和可视化交互任意修改流程，构造不同的AI Agent，并且实现相对复杂的功能，比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口，基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制，从而低门槛做出来自己高度定制化的数字人（如下图），具体的部署过程参考B站视频：https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型，也可以在Dify中接入XInference等模型管理平台，然后部署自己的模型。此外，数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块，能够保持更好的扩展，比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。上述Dify接口使用注意事项：1.使必须在应用编排功能中打开文字转语音和语音转文字功能，否则接口会返回未使能的错误。2.只有接入了支持TTS和SPEECH2TEXT的模型供应商，才会在功能板块中展示出来，Dify的模型供应商图标下标签有展示该供应商支持哪些功能，这里可以自行选择自己方便使用的。对于TTS，不同的模型供应商支持的语音人物不同，可以根据个人喜好添加。