直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

数字人

回答

数字人是运用数字技术创造出来的人,目前业界尚无准确定义,一般可根据技术栈分为两类:

  1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。其表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
  2. 算法驱动的数字人:
    • 相关算法开源代码仓库众多,如 ASR 语音识别方面有 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenet-e2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition);AI Agent 方面大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可用 LangChain 模块自定义(https://www.langchain.com/);TTS 方面有微软的 edge-tts(https://github.com/rany2/edge-tts)、VITS(https://github.com/jaywalnut310/vits)、so-vits-svc(https://github.com/svc-develop-team/so-vits-svc)。
    • 人物建模模型可通过手动建模(音频驱动)或 AIGC 方式生成人物动态效果(如 wav2lip 模型),但这种简单构建方式存在诸多问题,如如何生成指定人物声音、TTS 生成的音频如何精确驱动数字人口型及动作、数字人如何使用知识库做出专业回答等。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AI 数字人-定义数字世界中的你

这类数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。

爱的传承·数字母亲

[title]爱的传承·数字母亲内容负责人:朱睿电子酒统筹负责人:张小琳电子酒摄影:万阳剪辑:萧川布丁子健数字人:大萌子使用工具:剪辑:剪映imovie美图秀秀数字人:heygen电子酒:“还有一个节目是数字母亲这个节目是早早就记在心里的我曾经想通过数字墓园的形式呼吁大家保存亲人影像资料后来回溯这个节目的初心其实就是在卡兹克的群里看到的朱哥本人的一段话我干脆就找到了当事人邀请他和母亲接受采访朱哥和母亲很豁达地接受了邀约为了完成数字人的拍摄,朱妈妈吃了4片吗啡我相信这一切的付出都是为了和我们一起向外界面传递一些信号2月4号制作完数字人2月5号拍摄布丁川川子健凌晨开始剪辑协调补拍追加了很多镜头朱哥也熬了几个通宵来丰满素材最后呈现的效果虽然不完美但我相信这部片子仍然具有一定的社会价值”继续记录中

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]一、数字人简介[heading4]1.2算法驱动的数字人上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?

其他人在问
如何生成数字人
以下是生成数字人的方法和相关工具: 方法: 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,左下角会提示渲染完成时间,之后可点击预览查看效果。 增加背景图片:删除先前导入的文本内容,点击左上角“媒体”菜单并导入本地图片,将图片添加到视频轨道上,可调整图片位置、大小和显示时长。 增加字幕:点击文本智能字幕识别字幕,软件会自动将文字智能分段形成字幕,完成后可点击右上角“导出”按钮导出视频备用。 工具: HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,适用于游戏、电影和虚拟现实等应用。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:上传人像照片和输入内容,平台的 AI 语音机器人将自动转换成语音并合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关条款和政策,并注意版权和伦理责任。
2024-10-23
数字员工
数字员工是一种通过 AI 智能体实现的为个人提效的方式。在 WaytoAGI 的分享中,大聪明(赛博禅心作者)认为,AI 智能体就如同个人拥有的数字员工,您可以不断向其下达任务,就像老板给员工下达任务一样。每个数字员工有不同的特点和能力,下达任务时目标是否清晰以及能否被理解很重要,这考验写提示词的能力。数字员工会基于对目标的理解,按照计划不断尝试完成,并适时寻求反馈。例如句子互动就在打造大模型驱动的领先数字员工。
2024-10-21
AI数字主播
以下是关于 AI 数字主播的相关内容: 节目单方面: 节目单 1.3 中包含了多种传统艺术与 AI 技术结合的节目,如新式变脸换装秀,需要绿幕、大量服装和好身材演员,存在缺服装和场地、缺换脸大佬的问题;剪纸/皮影戏/花灯,需要传统文化串烧脚本、AI 图片诠释、AI 视频空镜和脚本串词,有想法但无人认领。 节目单 1.2 中有 AIGC 技术短片,涉及 AI 转绘和 AI 蒙版抠图等技术;AIGC 温情短片,以叙事为主;原创 RAP,包括原创 RAP、AI Raper 和视频驱动;经典节目再现,需考虑形式;猜真人,属于魔术互动类表演,涉及数字人及 AI 数字人,可参考 heygen 官网视频。 Character.ai 方面:其愿景是让每个人都能获得深度个性化超级智能,例如授课教师、游戏玩家、情感伴侣等服务都可被 AI 重构。在教育培训领域,借助大型语言模型,人工智能生成的角色可作为数字教师,如让牛顿、白居易授课,能实现一对一辅导,提供定制化学习计划和资源,提高教育效率和质量,缓解教育资源不平等问题。还可作为数字陪伴促进儿童成长。
2024-10-21
哪个软件做出来的数字人最好
以下是一些制作数字人效果较好的软件及相关介绍: 剪映: 优势:作为字节跳动旗下产品,在抖音平台广泛应用,海外版 CapCut 成绩斐然。具有声音克隆、公模数字人等 AI 功能,能在编辑器内完成脚本生成、语音克隆、数字人口播等环节。 制作流程:打开剪映,添加文本到文字轨道并修改文字,点击朗读进行声音克隆,选择数字人形象并换上克隆音色,一键智能生成字幕并调整文字样式。 生成数字人:在右侧窗口顶部打开“数字人”选项,选取免费合适的形象,软件会播放声音供判断,添加后可预览效果。还可增加背景图片等进行美化。 下载地址: Heygen: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片,上传后效果在 My Avatar 处显示,点开大图后,点击 Create with AI Studio 进入制作,写上视频文案并选择配音音色,也可自行上传音频,最后点击 Submit 得到数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:免费版下载后有水印。 使用方法:点击网址,点击右上角的 Create vedio,选择人物形象,可添加自己照片或使用给出的形象,配音时可选择提供文字选择音色或直接上传音频,最后点击 Generate vedio 生成视频,打开可下载或分享。 KreadoAI: 优点:免费,功能齐全。 缺点:音色较 AI。 使用方法:点击网址注册后获得 120 免费 k 币,选择“照片数字人口播”功能,点击开始创作,选择自定义照片,配音时可选择提供文字选择音色或直接上传音频,打开绿幕按钮,点击背景添加背景图,最后点击生成视频。
2024-10-20
哪些软件可以做数字人
以下是一些可以制作数字人的软件: 1. 剪映:在剪映右侧窗口顶部打开“数字人”选项,可选取免费且适合的数字人形象,如“婉婉青春”。添加数字人后,软件会生成对应音视频并添加到当前视频中,还可进行增加背景图片等操作。 2. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 3. Synthesia:这是一个 AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 4. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化。在使用时,请遵守相关使用条款和隐私政策,并注意生成内容的版权和伦理责任。 此外,还可以通过以下方式实现数字人的“私有化”: 尽管剪映已有很多公模数字人,但私模数字人更受欢迎。可以使用 AI 换脸软件来完成,具体步骤如下: 1. 第一步:打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。 2. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 3. 第三步:等待专属的数字人视频出炉。 有关数字人使用上的问题,欢迎在底部评论区留言交流。同时如果对数字人课程感兴趣,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程。 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0
2024-10-20
AI 圆桌论坛,讨论者是通信公司技术专家,数字业务专家,初创企业智慧城市专家,听众是对AI了解相对一般的观众,可以讨论哪些话题
以下是一些适合在您所描述的 AI 圆桌论坛中讨论的话题: 1. AI 在通信领域的应用与挑战,例如如何提升通信网络的智能化、优化频谱资源分配等。 2. 数字业务中 AI 的创新应用和潜在风险,比如个性化推荐系统的优化、数据隐私保护等。 3. 初创企业在智慧城市建设中利用 AI 的机遇和困难,像是如何获取数据资源、应对技术人才短缺等。 4. 探讨具身智能在不同领域的发展前景,如机器人、教育等。 5. 大模型如何为具身智能带来变革,以及相关的技术突破和应用案例。 6. 分析 AI 对传统行业的冲击与重塑,以及如何应对这种变化。 7. 研究 AI 在教育领域的创新模式,如个性化学习、智能辅导等。 8. 讨论 AI 技术的监管政策和伦理道德问题。 9. 分享在不同场景下(如出海业务、创新教育等)AI 的应用经验和成果。 10. 展望 AI 未来的发展趋势及其对社会经济的影响。
2024-10-20