Chat with Wiki - AI 数字人哪家的好

Answer

以下为您介绍一些较好的 AI 数字人相关的资源和产品：

数字人躯壳构建：
- 可以使用 web 前端页面（Live2D 就提供了 web 端的 SDK）或者 Native 的可执行程序进行部署。笔者的开源数字人项目（项目地址：https://github.com/wan-h/awesome-digital-human-live2d）选择了 live2d 作为数字人躯壳，因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单。另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例：https://github.com/Live2D。
数字人课程：
- 强烈推荐卡尔的 AI 沃茨做的这门数字人课程，一共 15 节视频课，持续更新还会不定时增加最新的数字人内容，附赠课外社群辅导，专门解决数字人相关的问题。关于卡尔，从创建 AIGC 开源学习网站 learnpromptl.pro，到建立卡尔的 AI 沃茨万人社群，他一直致力于 AI 学习圈。这一次，他建立了一套完整的数字人学习体系，放在这门《克隆你自己》的课程中，带领大家全方位掌握数字人各技能。同时，他详细回顾了 2023 年数字人领域的破圈事件，如 AI 马斯克对谈 AI 乔布斯超 331.9k 播放、霉霉说中文火遍全网、AI 郭德纲讲英文相声、硅语翻译｜海外明星送出中文新年祝福、通义千问｜兵马俑跳科目三、小冰推出支持交互的多模态数字人、阿根廷新总统用 HeyGen 做演讲等。数字人的出现，可以极大程度上优化工作流，尤其在制作个人 ip 短视频、配音、直播甚至到智能客服、虚拟偶像等各种领域都可以完成赋能。如果您想加入这场数字人浪潮，拥有自己的数字分身，优化自己的工作流，这门具备完整数字人学习体系的课程，正是您的需求。（扫码可以查看课程详细内容和介绍）
算法驱动的数字人相关开源代码：
- ASR 语音识别：openai 的 whisper:https://github.com/openai/whisper ；wenet:https://github.com/wenet-e2e/wenet ；speech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognition 。
- AI Agent：大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent 部分可以使用 LangChain 的模块去做自定义，里面基本包含了 Agent 实现的几个组件(https://www.langchain.com/) 。
- TTS：微软的 edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费；VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits 系列可以自己训练出想要的人声；so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的 AI 孙燕姿。

当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？

Content generated by AI large model, please carefully verify (powered by aily)

References

建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署，最后呈现在用户面前的是一个GUI。笔者的开源数字人项目（项目地址：https://github.com/wan-h/awesome-digital-human-live2d）选择了live2d作为数字人躯壳，因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然，相比虚幻引擎这些驱动方式又更加轻量和简单；另外超写实的数字人风格在目前的技术能力下，处理不好一致性问题，容易带来虚假的感觉或者产生恐怖谷效应，而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例：https://github.com/Live2D。

实战课程：数字人课程

强烈推荐一下卡尔的AI沃茨做的这门数字人课程，一共15节视频课，持续更新还会不定时增加最新的数字人内容，附赠课外社群辅导，专门解决数字人相关的问题。关于卡尔，从创建AIGC开源学习网站learnpromptl.pro，到建立卡尔的AI沃茨万人社群，他一直致力于AI学习圈。这一次，他建立了一套完整的数字人学习体系，放在这门《克隆你自己》的课程中，带领大家全方位掌握数字人各技能💪同时，他详细回顾了2023年数字人领域的破圈事件⬇️AI马斯克对谈AI乔布斯超331.9k播放霉霉说中文火遍全网，HeyGen再破圈AI郭德纲讲英文相声硅语翻译｜海外明星送出中文新年祝福通义千问｜兵马俑跳科目三小冰推出支持交互的多模态数字人阿根廷新总统用HeyGen做演讲🤖️数字人的出现，可以极大程度上优化工作流，尤其在制作个人ip短视频、配音、直播甚至到智能客服、虚拟偶像等各种领域都可以完成赋能。所以如果你想加入这场数字人浪潮，拥有自己的数字分身，优化自己的工作流，这门具备完整数字人学习体系的课程，正是你的需求💡[heading2]报名方式[content]🎉24年是数字人元年，人人都将拥有自己的数字人！（扫码可以查看课程详细内容和介绍）[heading2]行业评价[content]业内KOL数字人发言💬[heading2]课程大纲[heading2]教学形式

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。除了算法，人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？