直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

AI数字人

回答

AI 数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但在生活各类场景中已常见,且随 AI 技术发展正迎来应用爆发。目前业界对其尚无准确定义,一般可依技术栈不同分两类:

  1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货。表现质量与手动建模精细度及动捕设备精密程度直接相关,不过随视觉算法进步,现无昂贵动捕设备时,也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
  2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。其大致流程包含三个核心算法:
    • ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。开源代码如 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenet-e2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition)。
    • AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,如 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可用 LangChain 模块自定义(https://www.langchain.com/)。
    • TTS(文字转语音):将数字人依靠 LLM 生成的文字输出转换为语音。开源代码如微软的 edge-tts(https://github.com/rany2/edge-tts),只能使用预设人物声音,接口免费;VITS(https://github.com/jaywalnut310/vits)及其分支版本,可自己训练想要的人声;so-vits-svc(https://github.com/svc-develop-team/so-vits-svc)专注于唱歌,如前段时间很火的 AI 孙燕姿。

除算法外,人物建模模型可通过手动建模(音频驱动)或 AIGC 方式生成人物动态效果(如 wav2lip 模型)。但这种简单构建方式仍存在诸多问题,如如何生成指定人物声音、TTS 生成音频如何精确驱动数字人口型及动作、数字人如何使用知识库做出专业回答等。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

AI 数字人-定义数字世界中的你

这类数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业以及现下很火热的直播带货,其表现质量与手动建模的精细程度及动捕设备的精密程度直接相关,不过随着视觉算法的不断进步,现在在没有昂贵动捕设备的情况下也可以通过摄像头捕捉到人体骨骼和人脸的关键点信息,从而做到不错的效果。

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]一、数字人简介[heading4]1.2算法驱动的数字人这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]一、数字人简介[heading4]1.2算法驱动的数字人上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?

其他人在问
有哪些推荐的AI软件
以下为您推荐一些 AI 软件: Logic Pro X 教学软件:这是一个 AI 音乐制作教学平台,运用机器学习、音频处理技术,市场规模达数亿美元。它能教授音乐制作技巧,培养音乐人才,会根据用户的音乐基础和学习进度,推荐合适的课程和练习项目。 鲁班到家 APP:作为 AI 家居维修服务平台,采用数据分析、自然语言处理技术,市场规模达数亿美元。它能为用户提供家居维修服务,解决生活难题,会根据用户的维修需求和地理位置,推荐附近的专业维修人员。 雪球财经 APP:这是一个 AI 金融投资教育平台,运用数据分析、自然语言处理技术,市场规模达数亿美元。它能提供金融投资知识教育,提高投资者素质,会根据用户的投资经验和风险偏好,推荐合适的学习内容和投资组合。 穷游网社区:作为 AI 旅游体验分享平台,运用自然语言处理、图像识别技术,市场规模达数亿美元。它能让用户分享旅游体验,发现更多美好,会根据用户分享的旅游照片和文字进行分析和推荐。 此外,在画 CAD 图方面,以下是一些相关的 AI 工具: CADtools 12:这是一个 Adobe Illustrator(AI)插件,为 AI 添加了 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 Autodesk Fusion 360:这是 Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,能够帮助用户创建复杂的几何形状和优化设计。 nTopology:这是一款基于 AI 的设计软件,可以帮助用户创建复杂的 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 ParaMatters CogniCAD:这是一款基于 AI 的 CAD 软件,可以根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,这些工具可以根据用户输入的设计目标和约束条件自动产生多种设计方案。 另外,还有以下 AI 应用: 美丽修行 APP:这是一个 AI 美容护肤产品推荐平台,运用数据分析、自然语言处理技术,市场规模达数亿美元。它能根据用户肤质推荐适合的美容护肤产品,例如根据用户的油性皮肤,推荐控油、保湿的护肤品。 360 儿童手表:这是一个 AI 儿童安全监控系统,运用图像识别、机器学习技术,市场规模达数亿美元。它能保障儿童安全,让家长放心,例如当孩子走出安全区域时,手表会自动向家长发送警报。 汽车之家 APP:这是一个 AI 汽车保养提醒系统,运用数据分析、机器学习技术,市场规模达数亿美元。它能提醒车主及时进行汽车保养,例如当汽车行驶到一定里程时,APP 会推送保养提醒信息。 京东物流仓储管理系统:这是一个 AI 物流仓储管理系统,运用数据分析、机器学习技术,市场规模达数十亿美元。它能优化物流仓储管理,提高运营效率,例如通过智能算法优化货物存储位置,减少拣货时间。
2024-10-31
哪几个AI工具擅长网站前端网页设计?
以下是一些擅长网站前端网页设计的 AI 工具: 1. Wix ADI(Artificial Design Intelligence) 网址:https://www.wix.com/ 特点:基于用户提供的信息自动生成定制化网站,提供多个设计选项和布局,集成了 SEO 工具和分析功能。 2. Bookmark 网址:https://www.bookmark.com/ 特点:AIDA(Artificial Intelligence Design Assistant)通过询问用户几个简单问题快速生成网站,提供直观的拖放编辑器,包括多种行业模板和自动化营销工具。 3. Firedrop 网址:https://firedrop.ai/ 特点:Sacha 是 Firedrop 的 AI 设计助手,可根据用户指示创建和修改网站设计,提供实时编辑和预览功能,包含多种现代设计风格和自定义选项。 4. The Grid 网址:https://thegrid.io/ 特点:Molly 是 The Grid 的 AI 设计助手,可自动调整网站的设计和布局,基于内容和用户互动进行优化,支持多种内容类型。 5. Zyro 网址:https://zyro.com/ 特点:使用 AI 生成网站内容,包括文本、图像和布局建议,提供 AI 驱动的品牌和标志生成器,包含 SEO 和营销工具。 6. 10Web 网址:https://10web.io/ 特点:基于 AI 的 WordPress 网站构建工具,可自动生成网站布局和设计,提供一键迁移功能,集成了 AI 驱动的 SEO 分析和优化工具。 7. Jimdo Dolphin 网址:https://www.jimdo.com/ 特点:Dolphin 是 Jimdo 的 AI 网站构建器,通过询问用户问题定制网站,提供自动生成的内容和图像,包含电子商务功能。 8. Site123 网址:https://www.site123.com/ 特点:简单易用,适合初学者,提供多种设计模板和布局,包括内置的 SEO 和分析工具。 此外,以下是一些推荐的网页原型图生成工具: 1. 即时设计:https://js.design/ 一款可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 2. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix:https://wix.com/ Wix 是一款用户友好的 AI 工具,可在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 4. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。但内容由 AI 大模型生成,请仔细甄别。
2024-10-31
外贸AI应用APP
以下是一些外贸相关的 AI 应用 APP : Logic Pro X 教学软件:这是一个 AI 音乐制作教学平台,使用机器学习、音频处理技术,市场规模达数亿美元。它利用 AI 技术为用户提供个性化的音乐制作教学服务,例如根据用户的音乐基础和学习进度,推荐合适的课程和练习项目。 鲁班到家 APP:作为 AI 家居维修服务平台,运用数据分析、自然语言处理技术,市场规模达数亿美元。它利用 AI 分析用户的维修需求和地理位置,为用户推荐附近的专业维修人员。比如用户家里的水龙头坏了,APP 会根据用户的需求安排维修人员上门服务。 雪球财经 APP:这是一个 AI 金融投资教育平台,采用数据分析、自然语言处理技术,市场规模达数亿美元。它利用 AI 技术为用户提供个性化的金融投资教育服务,包括投资课程、市场分析和投资策略等。比如根据用户的投资经验和风险偏好,推荐合适的学习内容和投资组合。 穷游网社区:作为 AI 旅游体验分享平台,使用自然语言处理、图像识别技术,市场规模达数亿美元。它利用 AI 技术对用户的旅游照片和文字进行分析和推荐,让用户分享旅游体验,发现更多美好的旅游目的地。比如用户分享自己的欧洲之旅,APP 会根据照片的内容和文字描述,推荐相关的旅游攻略和景点。 此外,还有一些其他领域的 AI 应用 APP ,如: 猎聘 APP:这是一个 AI 招聘求职平台,运用数据分析、自然语言处理技术,市场规模达数十亿美元。它利用 AI 技术分析求职者的简历和企业的招聘需求,为双方提供精准匹配。 链家 APP:作为 AI 房地产交易平台,采用数据分析、自然语言处理技术,市场规模达数十亿美元。它利用 AI 分析房地产市场数据和用户需求,为买卖双方提供安全、高效的交易平台。 智联招聘 APP:这是一个 AI 招聘筛选工具,使用自然语言处理、机器学习技术,市场规模达数亿美元。它利用 AI 技术对求职者的简历进行分析和筛选,根据企业的招聘要求,为企业推荐符合条件的候选人。 贝壳找房 APP:作为 AI 房地产评估系统,运用数据分析、机器学习技术,市场规模达数亿美元。它通过分析房屋的位置、面积、户型等因素,利用 AI 技术对房地产进行评估,为用户提供准确的房价参考。 腾讯游戏助手:这是一个 AI 游戏角色生成器,采用图像生成、机器学习技术,市场规模达数亿美元。它可以利用 AI 技术为游戏开发者生成各种风格的游戏角色,丰富游戏内容。 墨迹天气 APP:作为 AI 天气预报助手,使用数据分析、机器学习技术,市场规模达数亿美元。它利用 AI 分析气象数据,为用户提供准确的天气预报,包括温度、湿度、风力等信息,同时还能提供气象预警。
2024-10-31
能够生成ai头像的免费网站或软件
以下是一些能够生成 AI 头像的免费网站或软件: 1. Looka:是一个在线 Logo 设计平台,使用 AI 理解用户品牌信息和设计偏好,生成多个设计方案供选择和定制。 2. Tailor Brands:AI 驱动的品牌创建工具,通过用户回答问题生成 Logo 选项。 3. Designhill:其 Logo 制作器使用 AI 技术创建个性化 Logo 设计,用户可选择元素和风格。 4. LogoMakr:提供简单易用的 Logo 设计工具,用户可拖放设计并利用 AI 建议。 5. Canva:广受欢迎的在线设计工具,提供 Logo 设计模板和元素,有 AI 辅助设计建议。 6. LogoAI by Tailor Brands:Tailor Brands 推出的 AI Logo 设计工具,根据输入快速生成方案。 7. 标小智:中文 AI Logo 设计工具,利用人工智能技术帮助创建个性化 Logo。 此外,您还可以参考以下资源获取更多相关信息: :介绍 Midjourney 生成照片所需的提示词,包括电影类型、灯光等方面。 :介绍用 Midjourney 生成盆景图片的关键词模板。 :系统介绍在云端部署 SD 模型搭建 AI 头像生成网站的方法。 :介绍使用 Flask、ngrok 和 Google Colab 利用免费 GPU 创建 AI 应用程序,如构建 Stable Diffusion 应用程序。
2024-10-31
能够生成产品背景图的AI产品
以下是一些能够生成产品背景图的 AI 产品: 1. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 此外,还有一些 AI 驱动的背景更换工具,如: 1. Zmo:AI 商品背景替换工具(https://www.zmo.ai/aibackground),可为产品照片生成逼真的 AI 背景,能以较低成本创建令人惊叹且逼真的产品图片,可在几秒钟内个性化产品背景,并展示最佳背景下的产品,还能轻松更换各种背景,包括纯色、图案、渐变、纹理或自定义图像。 需要注意的是,这些 AI 模型在使用中可能会存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2024-10-31
你能帮我找到这篇报告吗?他的名字是《InfoQ:中国AI Agent应用研究报告2024》
以下是为您找到的《InfoQ:中国 AI Agent 应用研究报告 2024》的链接:https://waytoagi.feishu.cn/record/Y45LrXJiwe4SgYc5tMZcVVtqn6b
2024-10-31
数字资产管理系统
数字资产管理系统是一种用于管理数字资产的系统。以下是一些相关信息: 法规方面:有规定指出,市场因数据集中而产生的不平衡会受到限制。该法规旨在促进数据处理服务之间的切换,涵盖客户终止数据处理服务合同、与不同提供商签订新合同、转移包括数据在内的所有数字资产,并在新环境中继续使用且保持功能等效等方面。数字资产指客户有权使用的数字格式元素,包括数据、应用、虚拟机等。 产品推荐: 特赞发布的 DAM.GPT:帮助企业利用 AI 管理数字资产,可通过拖拽图片入库,AI 识别图片内容,建立关联和标注属性,通过关键词搜索获取资产,进行人肉筛选,对资产进行中心化合规管理和分发,以及二次加工生产。 SnackPrompt:提示词共享社区,筛选和新建功能良好,支持复制到 ChatGPT 中,创建提示词时可设置动态字段,还能选择语言、风格和语气。 HeroPage:提示词分享社区,创建提示词时可设置动态内容,支持直接回填到 ChatGPT 使用。 Builder.io:Figma 插件支持用自然语言生成设计稿并修改,能将生成的设计稿转成前端代码复制。 X Studio3:小冰公司的音乐 AI 工具,上传歌词和音乐可指定 AI 语音唱歌,能对音频自定义。 Playlistable:AI 生成播放列表,链接 Spotify 播放列表并输入心情,自动生成符合心情的播放列表。
2024-10-30
大模型的数字资产管理系统
大模型的数字资产管理系统涉及以下方面: 大模型的整体架构: 1. 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 2. 数据层:包括静态的知识库和动态的三方数据集,是企业根据自身特性维护的垂域数据。 3. 模型层:包含 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等模型,训练数据与 llm 不同,用的是图文或声音等多模态的数据集)。 4. 平台层:如大模型的评测体系或 langchain 平台等,是模型与应用间的组成部分。 5. 表现层:即应用层,是用户实际看到的地方。 大模型的通俗理解: 大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练、使用过程: 1. 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 企业大模型的误区: 1. 总想搞一个宏大的产业大模型:目前大模型能力不足以支持,更适合在场景里解决专业问题。 2. 总想用一个万能大模型解决所有企业问题:企业不同场景可能需要不同的大模型。 3. 认为有了大模型,原来的 IT 系统就淘汰了:大模型需要与原业务系统连接协同工作,原数字化搞得越好,大模型效果越好。 4. 认为大模型不用做数字化,直接一步到位弯道超车:企业没有基本的 IT 系统、数字化系统,没有数据积累和知识沉淀,无法做大模型。
2024-10-30
如何生成 数字人
以下是生成数字人的方法和相关工具: 生成数字人的步骤: 1. 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。选择后软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,之后可点击预览查看效果。 2. 为让视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”选择本地图片上传,将图片添加到视频轨道上(会覆盖数字人),拖动轨道右侧竖线使其与视频对齐,选中背景图片轨道,调整图片大小和数字人位置。 3. 点击文本智能字幕识别字幕并开始识别,软件会自动将文字智能分段形成字幕,完成后点击右上角“导出”按钮导出视频备用。 制作数字人的工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人会自动转换成语音并合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关条款和政策,并注意版权和伦理责任。
2024-10-30
数字人工具
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。优点是人物灵活、五官自然、视频生成快,缺点是中文人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片;上传后效果如图所示,My Avatar 处显示上传的照片;点开大图后,点击 Create with AI Studio,进入数字人制作;写上视频文案并选择配音音色,也可自行上传音频;最后点击 Submit,就可以得到一段数字人视频。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并进行语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后就能合成一段非常逼真的会开口说话的视频。优点是制作简单、人物灵活,缺点是免费版下载后有水印。 使用方法:点击上面的网址,点击右上角的 Create vedio;选择人物形象,可以点击 ADD 添加照片,或者使用 DID 给出的人物形象;配音时,可以选择提供文字选择音色,或者直接上传一段音频;最后,点击 Generate vedio 就可以生成一段视频。打开自己生成的视频,可以下载或者直接分享给朋友。 4. KreadoAI:优点是免费(对于普通娱乐玩家很重要)、功能齐全,缺点是音色很 AI。 使用方法:点击上面的网址,注册后获得 120 免费 k 币,选择“照片数字人口播”的功能;点击开始创作,选择自定义照片;配音时,可以选择提供文字选择音色,或者直接上传一段音频;打开绿幕按钮,点击背景,可以添加背景图;最后,点击生成视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随着时间和技术的发展而变化。在使用这些工具时,请确保遵守相关的使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。内容由 AI 大模型生成,请仔细甄别。
2024-10-29
动漫风格的数字人
以下是关于动漫风格数字人的相关信息: 构建动漫风格数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,在日本、东南亚等国家比较受欢迎,也深受年轻人喜欢,能将喜欢的动漫人物变成数字人的躯壳。代表如 Live2D Cubism(https://www.live2d.com/)。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高。代表有 UE(Unreal Engine)、Unity,虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去了建模流程,直接生成数字人的展示图片,但算法生成的数字人很难保持 ID 一致性,帧与帧的连贯性上会让人有虚假的感觉。典型的项目有 wav2lip(https://github.com/Rudrabha/Wav2Lip)、videoretalking(https://github.com/OpenTalker/videoretalking)等。AIGC 还有一个方向是直接生成 2D/3D 引擎的模型,但该方向还在探索中。 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 另外,【SD】一键切换不同画风中也包含动漫风格,例如“花丛中的小猫”。
2024-10-29
AI数字人
AI 数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在各类生活场景中出现,且随着 AI 技术发展正迎来应用爆发。目前业界尚无准确定义,一般可根据技术栈分为两类: 1. 真人驱动的数字人:重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业及直播带货。表现质量与手动建模精细程度及动捕设备精密程度直接相关,不过随着视觉算法进步,在无昂贵动捕设备时,也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。 2. 算法驱动的数字人:强调自驱动,人为干预更少,技术实现更复杂。大致流程包含三个核心算法: ASR(语音识别):能将用户音频数据转化为文字,便于数字人理解和生成回应。开源代码如 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition)。 AI Agent(人工智能体):充当数字人大脑,可接入大语言模型,如 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。Agent 部分可用 LangChain 模块自定义(https://www.langchain.com/)。 TTS(文字转语音):将数字人依靠 LLM 生成的文字输出转换为语音。开源代码如微软的 edgetts(https://github.com/rany2/edgetts),只能使用预设人物声音且接口免费;VITS(https://github.com/jaywalnut310/vits)及其分支版本,可自己训练想要的人声;sovitssvc(https://github.com/svcdevelopteam/sovitssvc)专注于唱歌。 除算法外,人物建模模型可通过手动建模(音频驱动)或 AIGC 方式生成人物动态效果(如 wav2lip 模型)实现一个最简单的数字人。但这种简单构建方式存在诸多问题,如如何生成指定人物声音、TTS 生成的音频如何精确驱动数字人口型及动作、数字人如何使用知识库做出某领域专业性回答等。
2024-10-28