有哪些数字人方案 -WayToAGI

回答

以下是一些常见的数字人方案：

算法驱动的数字人：
- 开源代码：
  - ASR 语音识别：openai 的 whisper（https://github.com/openai/whisper）、wenet（https://github.com/wenet-e2e/wenet）、speech_recognition（这是一个语音识别的接口集合，里面有不同实现的语音识别的接口：https://github.com/Uberi/speech_recognition）
  - AI Agent 大模型：ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可以使用 LangChain 的模块去做自定义，里面基本包含了 Agent 实现的几个组件（https://www.langchain.com/）
  - TTS：微软的 edge-tts（https://github.com/rany2/edge-tts），只能使用里面预设的人物声音，目前接口免费；VITS（https://github.com/jaywalnut310/vits），还有很多的分支版本，可以去搜索一下，vits 系列可以自己训练出想要的人声；so-vits-svc（https://github.com/svc-develop-team/so-vits-svc），专注到唱歌上面，前段时间很火的 AI 孙燕姿。
- 核心算法：
  - ASR（Automatic Speech Recognition，语音识别）：能将用户的音频数据转化为文字，便于数字人理解和生成回应。
  - AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调 Agent 的概念是为了让数字人拥有记忆模块等更加真实。
  - TTS(Text to Speech，文字转语音）：将数字人依靠 LLM 生成的输出文字转换为语音，保持语音交互一致性。
剪映数字人“个性化“—无限免费私模数字人：Heygen 的访问限制太强，正好剪映已经有了声音克隆和公模数字人两项能力，搭配 facefusion 的换脸技术，能轻松实现零成本的口播数字人。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。

方案：剪映数字人“个性化“—无限免费私模数字人

Heygen的访问限制太强，正好剪映已经有了声音克隆和公模数字人两项能力，搭配facefusion的换脸技术，我们能轻松实现零成本的口播数字人成果视频

AI 数字人-定义数字世界中的你

这类数字人强调自驱动，人为干预更少，技术实现上更加复杂，一个最简单的算法驱动的数字人大致流程如下：其中三个核心算法分别是：1.ASR(Automatic Speech Recognition，语音识别)：我们希望和数字人的交互跟人一样以对话为主，所以算法驱动的第一步就是语音识别，它能将用户的音频数据转化为文字，便于数字人理解和生成回应。2.AI Agent（人工智能体）：充当数字人的大脑，可以直接接入大语言模型，强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech，文字转语音）：数字人依靠LLM生成的输出是文字，为了保持语音交互一致性，需要将文字转换为语音，由数字人。