Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI数字人

Answer

AI 数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在各类生活场景中常见,且随着 AI 技术发展正迎来应用爆发。目前业界尚无准确定义,一般可根据技术栈分为两类:

  1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货。表现质量与手动建模精细度及动捕设备精密程度直接相关,不过视觉算法进步使在无昂贵动捕设备时,也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
  2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。大致流程包含三个核心算法:
    • ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。开源代码如 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenet-e2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition)。
    • AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,如 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可用 LangChain 模块自定义(https://www.langchain.com/)。
    • TTS(文字转语音):将数字人依靠 LLM 生成的文字输出转换为语音。开源代码如微软的 edge-tts(https://github.com/rany2/edge-tts),只能使用预设人物声音且接口免费;VITS(https://github.com/jaywalnut310/vits)及其分支版本,可自己训练想要的人声;so-vits-svc(https://github.com/svc-develop-team/so-vits-svc)专注于唱歌,如前段时间很火的 AI 孙燕姿。

除算法外,人物建模模型可通过手动建模(音频驱动)或 AIGC 方式生成人物动态效果(如 wav2lip 模型)实现一个最简单的数字人。但这种简单构建方式存在诸多问题,如如何生成指定人物声音、TTS 生成的音频如何精确驱动数字人口型及动作、数字人如何使用知识库做出某个领域的专业性回答等。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

数字人,是指运用数字技术创造出来的人,虽然在现阶段不能做到像科幻作品中的人型机器人一样具备高度智能,但它已经在生活的各类场景中触手可及,而且随着AI技术的发展,也正在迎来应用爆发。目前业界还没有一个关于数字人的准确定义,但一般可以根据技术栈的不同分为两类,一类是由真人驱动的数字人,另一类是由算法驱动的数字人。[heading4]1.1真人驱动的数字人[content]这类数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。

AI 数字人-定义数字世界中的你

这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?

Others are asking
对自媒体创作有用的AI软件或工具
以下是一些对自媒体创作有用的 AI 软件或工具: 1. AI 研究工具:Claude、ChatGPT、Bing Chat、Perplexity。 2. 图片处理:DallE、Leonardo、BlueWillow、Midjourney。 3. 版权写作:Rytr、Copy AI、Wordtune、Writesonic。 4. 设计:Canva、Clipdrop、Designify、Microsoft Designer。 5. 网站搭建:10Web、Framer、Hostinger、Landingsite。 6. 视频处理:Klap、Opus、Invideo、Heygen。 7. 音频处理:Murf、LovoAI、Resemble、Eleven Labs。 8. SEO 优化:Alli AI、BlogSEO、Seona AI、Clearscope。 9. Logo 设计:Looka、LogoAI、Brandmark、Logomaster。 10. 聊天机器人:Droxy、Chatbase、Voiceflow、Chatsimple。 11. 自动化工具:Make、Zapier、Bardeen、Postman。 此外,中文的内容仿写 AI 工具推荐: 1. 秘塔写作猫:https://xiezuocat.com/ 写作猫是 AI 写作伴侣,能推敲用语、斟酌文法、改写文风,还能实时同步翻译。支持全文改写,一键修改,实时纠错并给出修改建议,智能分析文章的各类属性,为文章的正负情感、情绪强度和易读性打分。 2. 笔灵 AI 写作:https://ibiling.cn/ 是得力的智能写作助手,能处理心得体会、公文写作、演讲稿、小说、论文等,支持一键改写/续写/扩写,智能锤炼打磨文字。 3. 腾讯 Effidit 写作:https://effidit.qq.com/ 智能创作助手 Effidit 由腾讯 AI Lab 开发,能提升写作者的写作效率和创作体验。 更多 AI 写作类工具可以查看:https://www.waytoagi.com/sites/category/2 (内容由 AI 大模型生成,请仔细甄别。)
2025-01-13
ai在企业的落地场景
AI 在企业中有多种落地场景,以下为您详细介绍: 1. 决策方面: 在实际企业环境中,领导者常面临平衡 AI 与人类判断以快速决策的问题。例如依赖 AI 进行销售数据分析来制定产品定价策略,但当市场环境变化时,AI 建议可能不适用。 企业领导者需认识到 AI 决策的不透明性,设立审核流程,如某公司全球化扩张时,AI 提供的局部市场数据分析建议需经领导者基于经验和洞察的审查。 为最大化 AI 优势并避免盲目依赖,企业可建立“AI 决策审核流程”,包括数据源验证、算法透明度、专家审查、伦理与社会影响评估等步骤。 2. 医疗保健领域: 医学影像分析:辅助诊断疾病。 药物研发:加速研发过程,识别潜在药物候选物和设计新疗法。 个性化医疗:分析患者数据提供个性化治疗方案。 机器人辅助手术:提高手术精度和安全性。 3. 金融服务领域: 风控和反欺诈:识别和阻止欺诈行为,降低风险。 信用评估:帮助金融机构做出贷款决策。 投资分析:分析市场数据辅助投资决策。 客户服务:提供 24/7 服务并回答常见问题。 4. 零售和电子商务领域: 产品推荐:分析客户数据进行个性化推荐。 搜索和个性化:改善搜索结果和提供个性化购物体验。 动态定价:根据市场需求调整产品价格。 聊天机器人:回答客户问题并解决问题。 5. 制造业领域: 预测性维护:预测机器故障避免停机。 质量控制:检测产品缺陷提高质量。 供应链管理:优化供应链提高效率和降低成本。 机器人自动化:控制工业机器人提高生产效率。
2025-01-13
AI合规审核,产品包装信息如何借助AI进行智能审核
利用 AI 进行产品包装信息的智能审核,可以参考以下类似的方法和步骤: 1. 数据收集与分析:利用 AI 工具收集和分析大量的产品包装信息数据,包括市场上已有的成功案例、相关法规要求等,以了解常见的模式和问题。 2. 关键词提取与匹配:通过 AI 提取产品包装中的关键信息,并与合规要求的关键词进行匹配,快速筛选出可能存在问题的部分。 3. 图像识别与内容审查:运用 AI 图像识别技术审查包装上的图片、图标等元素,确保其符合相关规定,同时对文字内容进行深度分析。 4. 法规库对接:将 AI 系统与最新的法规库进行对接,实时更新审核标准,保证审核的准确性和及时性。 5. 风险评估与预警:AI 可以根据分析结果评估包装信息的合规风险,并及时发出预警,提示修改。 6. 个性化审核模型:根据不同产品类型和行业特点,训练个性化的 AI 审核模型,提高审核的针对性和准确性。 7. 反馈与优化:根据审核结果和用户反馈,不断优化 AI 模型,提高审核的质量和效率。
2025-01-13
AI合规审核,产品保证信息如何借助AI进行只能审核
以下是关于借助 AI 进行产品保证信息合规审核的一些建议: 1. 建立用户的举报和响应机制:在网站建立相关投诉举报机制,如设置侵权举报按钮,简化举报流程,并建立快速响应团队,负责评估收到的侵权举报,并在必要时采取法律行动。 2. 对用户进行潜在风险提示,明确用户责任与义务:在用户协议中详细列出禁止侵权行为的条款,并明确违反协议的法律后果。通过用户教育活动,如在线研讨会、指南和常见问题解答,提高用户对版权的认识。 3. 企业应当深入钻研相关法律法规,深化版权合规流程: 定期组织知识产权法律培训,确保团队成员对相关法律法规有深刻理解,涵盖适用于 AI 生成内容的版权法、AI 创新的专利申请策略,以及对国际知识产权法律差异的理解等内容。 建立专门的法律合规团队,其职责不仅是监控,还需主动解释新法律变动对公司运营的影响,包括对新立法进行影响分析、从法律角度对产品开发提供建议,以及制定内部政策以指导公司对法律更新的响应。 制定严格的数据来源审核流程,确保所有用于训练 AI 的数据均获得明确的版权授权。对于 AI 生成的内容,应实行版权审核机制,以确保这些内容要么是原创的,要么已经得到授权使用。 4. 建立企业内容过滤与监控系统:开发或采用先进的内容识别技术,如图像识别和文本匹配,自动识别并过滤潜在的侵权内容。同时,建立内容监控小组,负责人工审核由用户生成的内容,确保过滤系统的准确性。通过结合使用技术和人工审核,提高识别侵权内容的能力,保护企业和用户免受侵权风险。
2025-01-13
如何成为AI训练师
成为 AI 训练师需要以下几个方面的努力: 1. 扎实的基础知识:就像医学生从化学和生物学基础课程开始一样,AI 训练师也需要掌握相关的基础知识,例如数学、统计学、计算机科学等。 2. 领域专业知识:针对特定的应用领域,如医疗保健,需要深入了解该领域的专业知识,包括原理、流程和实践经验。 3. 学习方式:通过正规的学校教育和实践学徒的方式,从该领域最出色的实践者那里学习,积累经验和直觉。 4. 模型训练方法:不应仅仅依靠大量的数据和生成模型,而是采用堆叠模型的方式进行训练,例如先训练生物学模型,再添加特定领域的数据点。 5. 持续学习和创新:鉴于 AI 的发展特性,要不断学习新的技术和方法,探索更有效的训练方式。 同时,利用 AI 进行教育和自学也是提升自身能力的途径,但要注意对关键数据进行核实,避免 AI 产生的幻觉导致错误。
2025-01-13
法律咨询ai、agent推荐
以下为为您推荐的法律咨询 AI 和 agent: 法信智能法律咨询:这是一个 AI 法律咨询助手,运用自然语言处理和知识图谱技术,能够解答法律问题并提供法律咨询。其市场规模达数亿美元。 Casetext:在法律领域表现出色,2023 年 4 月访问量约 479 万,2024 年 3 月增至 628 万,占比提升至 68%。它是法律赛道的领先产品,可能因提供高质量法律信息和工具而受用户青睐。
2025-01-13
我想生成一个al数字人 你帮我生成一些指令 我命令al出一些内容
以下是一些生成 AI 数字人的指令建议: 1. 即使是简单的提示,如“请为我生成一个 AI 数字人”,也能获得可用的结果。但如果提示更精确,例如指定数字人的风格、面向的受众、详细程度等,效果可能会更好。比如,可以要求生成一个风格非常逼真、面向年轻人、描述详细的 AI 数字人。 2. 明确您希望数字人的特征,比如外貌、性格、动作等。例如,如果您要说“请为我生成一个外貌酷似某位明星、性格开朗、动作优雅的 AI 数字人”。 3. 您还可以指定数字人的应用场景,比如用于新闻报道、娱乐节目等。 4. 如果希望数字人有特定的语言表达风格,比如像专业主持人那样,或者更像日常交流,也需要明确指示。 5. 对于数字人的字幕生成,可以点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。完成后点击右上角的“导出”按钮,导出视频以作备用。如果希望数字人换成特定的面孔,需要使用另一个工具来进行换脸。
2025-01-12
免费数字人模型
以下为您推荐免费数字人模型及相关制作方法: 开源且适合小白用户的数字人工具: 特点:具有一键安装包,无需配置环境,简单易用。 功能:能够生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub 链接: 官网: 在剪映中生成数字人的方法: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到视频轨道中,左下角会提示渲染完成时间,可点击预览按钮查看效果。 为使视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并点击“导入”按钮选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),可通过拖动轨道右侧竖线使其与视频对齐,选中背景图片轨道,在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。
2025-01-11
免费数字人平台
以下为您介绍一些免费的数字人平台: 1. HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法: 1. 点击网址注册后,进入数字人制作,选择Photo Avatar上传自己的照片。 2. 上传后效果如图所示,My Avatar处显示上传的照片。 3. 点开大图后,点击Create with AI Studio,进入数字人制作。 4. 写上视频文案并选择配音音色,也可以自行上传音频。 5. 最后点击Submit,就可以得到一段数字人视频。 2. DID: 优点:制作简单,人物灵活。 缺点:为了防止侵权,免费版下载后有水印。 使用方法: 1. 点击上面的网址,点击右上角的Create vedio。 2. 选择人物形象,可以点击ADD添加您的照片,或者使用DID给出的人物形象。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 最后,点击Generate vedio就可以生成一段视频。 5. 打开自己生成的视频,可以下载或者直接分享给朋友。 3. KreadoAI: 优点:免费(对于普通娱乐玩家很重要),功能齐全。 缺点:音色很AI。 使用方法: 1. 点击上面的网址,注册后获得120免费k币,这里选择“照片数字人口播”的功能。 2. 点击开始创作,选择自定义照片。 3. 配音时,可以选择提供文字选择音色,或者直接上传一段音频。 4. 打开绿幕按钮,点击背景,可以添加背景图。 5. 最后,点击生成视频。 此外,还有关于剪映数字人“个性化”的方案: 1. 数字人“私有化”:尽管剪映已经有很多公模数字人,但是私模数字人更受欢迎。可以用AI换脸软件来完成最后一步。需要谷歌账号(淘宝或者在我们账号解决平台“”就可以直接购买)。 步骤: 1. 第一步打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击open colab就进到程序主要运行界面。在右上角点击“代码执行程序”选择“全部运行”就行,无需安装,无需付费。点击红框对应的URL就会打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”就能生成。 3. 第三步:等着自己专属的数字人视频出炉。 2. 剪映做数字人的优势:剪映作为字节跳动旗下的产品,在抖音平台上被广泛应用,海外版CapCut也很受欢迎。其六大AI功能解决了用数字人做视频的痛点。 制作流程: 1. 首先打开剪映,然后添加一个文本到文字轨道,并修改好需要朗读的文字。 2. 然后点击朗读,并进行声音克隆,剪映的声音克隆现在只用念一句话就可以完成克隆。 3. 克隆完成后,选择喜欢的数字人形象,并把自己的克隆音色换上去。 4. 最后,一键智能生成字幕,再自行调整文字样式并校准。 剪映下载地址: 。有关数字人使用上的问题,欢迎在底部评论区留言,一起交流。同时如果对数字人课程感兴趣的话,欢迎查看通往AGI之路X AI沃茨的《克隆你自己》课程!在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。
2025-01-11
免费数字人
以下是关于免费数字人的相关内容: 使用剪映生成免费数字人的方法: 1. 打开剪映右侧窗口顶部的“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,左下角会提示渲染完成时间,完成后可点击预览查看效果。 2. 为让视频更美观,可删除先前导入的文本内容,为视频增加背景图片。点击左上角“媒体”菜单并“导入”本地图片,将图片添加到视频轨道上(会覆盖数字人),将轨道最右侧竖线向右拖拽使其与视频对齐,选中轨道后在显示区域拖动图片角放大到适合尺寸,并将数字人拖动到合适位置。 剪映做数字人的优势: 剪映是字节跳动旗下产品,在抖音平台广泛应用于短视频创作和编辑。其海外版 CapCut 登顶过美国 App Store,全球安装总量超 2.5 亿次,在美国市场安装总量近 950 万次。它具有六大 AI 功能,解决了用数字人做视频的痛点,能在编辑器里完成脚本生成、语音克隆、数字人口播等环节。 剪映数字人的制作流程: 1. 打开剪映,添加文本到文字轨道并修改需朗读的文字。 2. 点击朗读并进行声音克隆,剪映声音克隆念一句话即可完成。 3. 克隆完成后,选择喜欢的数字人形象并换上克隆音色,最后一键智能生成字幕,自行调整文字样式并校准。 数字人“私有化”: 尽管剪映有很多公模数字人,但私模数字人更受欢迎。可使用 AI 换脸软件完成最后一步。 1. 第一步,打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进入程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,点击红框对应的 URL 打开操作界面。 2. 第二步,点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 3. 第三步,等待专属数字人视频出炉。 有关数字人使用问题,欢迎在底部评论区留言交流。对数字人课程感兴趣,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程。 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0 。 课程内容: 。 剪映下载地址: 1. 2.
2025-01-11
开源数字人
以下是关于开源数字人的相关信息: 数字人组合方案: 第一步:先剪出音频,可使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。 构建高质量的 AI 数字人: 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2025-01-11
元宇宙推动教育的全面数字化转型
元宇宙对教育的全面数字化转型具有重要推动作用。 在当前的数字化时代,数字化正在重塑我们的生活,从依赖物理资源的稀缺经济转向以数字资源为基础的富足经济。AI 的发展进一步加强了这一趋势,而元宇宙代表着物理世界的数字化。 在教育领域,存在多种与元宇宙和数字化转型相关的情况和探索。例如: 1. 智慧课程培育建设和人工智能赋能教学创新工作坊,涉及多种工具推荐,如 Bot.360.com 多模型竞技选取最佳答案、用 heyGen 定制“数字分身”等。 2. 教育工作坊涵盖了 AI 助力教学设计、生成式 AI 对课件制作和微课生成的变革、学情分析与作业测评等多个方面。 3. 对于教师而言,面临着如 AI 教师是否会代替人类教师等问题,同时也有诸如 AI 导师一对一、人机协同教育生态等新的模式和理念。 总之,元宇宙和相关技术为教育的数字化转型带来了众多可能性,包括大规模自适应学习、工作场景模拟等,也促使教育不断探索新的模式和方法,以适应时代的发展。
2025-01-11