以下是关于开源数字人的相关信息:
先剪出音频,使用https://elevenlabs.io/speech-synthesis或使用GPT-sovits[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg)克隆声音,做出文案的音频。[heading2]第二步[content]使用wav2lip整合包,导入视频和音频,对口型得到视频。基础wav2lip+高清修复整合包下载地址https://github.com/Rudrabha/Wav2Lip这就是目前的本地跑数字人的方案,效果都差不多,都是用的wav2lip产品https://synclabs.so/
建好的模型可以使用web前端页面(Live2D就提供了web端的SDK)或者Native的可执行程序进行部署,最后呈现在用户面前的是一个GUI。笔者的开源数字人项目(项目地址:https://github.com/wan-h/awesome-digital-human-live2d)选择了live2d作为数字人躯壳,因为这类SDK的驱动方式相比现在的AI生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于live2d的SDK驱动方式可以参考官方示例:https://github.com/Live2D。
🔔Xiaohu.AI日报「11月13日」✨✨✨✨✨✨✨✨1⃣️🎨字节跳动AI图像编辑工具:SeedEdit实现全自动P图,只需文字描述即可编辑图片。能改变背景、服装颜色、灯光等,效果逼真且保持高质量。无需专业技能,简化了Photoshop式的复杂操作。🔗[https://mp.weixin.qq.com/s/glwWLWYY46TWfl379y0Rzg](https://mp.weixin.qq.com/s/glwWLWYY46TWfl379y0Rzg)🔗[https://xiaohu.ai/p/15408](https://xiaohu.ai/p/15408)2⃣️🧬Google DeepMind开源AlphaFold 3:AlphaFold 3扩展到DNA、RNA、配体等生物分子结构预测。助力全球科学家推动生命科学发展。目标是全方位预测生命中的分子结构。🔗[https://xiaohu.ai/p/15436](https://xiaohu.ai/p/15436)3⃣️🤖HeyGen开放数字人API:提供虚拟人制作、视频翻译和互动虚拟人等功能。应用于在线营销、客户支持、培训教程等多场景。助力打造全球化、多语言互动数字体验。🔗[https://xiaohu.ai/p/15442](https://xiaohu.ai/p/15442)4⃣️🚜全地形越野机器人"山猫":