直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

怎么拥有自己的数字人

回答

拥有自己的数字人可以通过以下几种方式实现:

  1. 参加实战课程:如《克隆你自己》课程,它建立了一套完整的数字人学习体系,能带领大家全方位掌握数字人各技能。同时课程还详细回顾了 2023 年数字人领域的破圈事件,如“AI 马斯克对谈 AI 乔布斯超 331.9k 播放”等。数字人的出现能在多个领域优化工作流,如制作个人 IP 短视频、配音、直播、智能客服、虚拟偶像等。
  2. 构建高质量的数字人灵魂:借助开源社区的力量,使用像 dify、fastgpt 等成熟的高质量 AI 编排框架。这些框架有大量开源工作者维护,集成了各种主流的模型供应商、工具以及算法实现等。可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在开源项目中,使用 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audio-to-text 和 text-to-audio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25。
  3. 利用软件生成:在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,如“婉婉-青春”。选择数字人形象时,软件会播放其声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中。剪映 App 会根据提供的内容生成对应音视频并添加到轨道中。左下角会提示渲染完成时间,之后可点击预览按钮查看效果。还可以为视频增加背景图片,如通过点击左上角“媒体”菜单,点击“导入”按钮选择本地图片上传。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

实战课程:数字人课程

关于卡尔,从创建AIGC开源学习网站learnpromptl.pro,到建立卡尔的AI沃茨万人社群,他一直致力于AI学习圈。这一次,他建立了一套完整的数字人学习体系,放在这门《克隆你自己》的课程中,带领大家全方位掌握数字人各技能💪同时,他详细回顾了2023年数字人领域的破圈事件⬇️|文本|标签|备注|附件|<br>|-|-|-|-|<br>|AI马斯克对谈AI乔布斯超331.9k播放||||<br>|霉霉说中文火遍全网,HeyGen再破圈||||<br>|AI郭德纲讲英文相声||||<br>|硅语翻译|海外明星送出中文新年祝福||||<br>|通义千问|兵马俑跳科目三||||<br>|小冰推出支持交互的多模态数字人||||<br>|阿根廷新总统用HeyGen做演讲||||🤖️数字人的出现,可以极大程度上优化工作流,尤其在制作个人ip短视频、配音、直播甚至到智能客服、虚拟偶像等各种领域都可以完成赋能。所以如果你想加入这场数字人浪潮,拥有自己的数字分身,优化自己的工作流,这门具备完整数字人学习体系的课程,正是你的需求💡

AI 数字人-定义数字世界中的你

上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

3.1生成数字人在剪映右侧窗口顶部,我们打开“数字人”选项,选取一位免费的、适合的数字人形象,这里我选择“婉婉-青春”。当你选择一个数字人形象时,软件会马上播放出该数字人的声音。你可以判断是否是你需要的,点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容,来生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮,查看生成的数字人效果。3.2增加背景图片接下来,可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道,或者点击软件中间文字内容,按删除键删去文字:为了让视频更美观,我们为视频增加背景图片。当然你可以增加多个背景图片,为简化演示,这里增加1张图片。点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传:我选择一张书架图片上传,然后像添加文字内容一样,点击图片右下角的加号,将这个图片添加到视频的轨道上(会覆盖数字人):

其他人在问
数字人直播
以下是关于数字人直播的相关信息: 会议讨论要点: 目前做数字人电商直播,可能只是因为前期宣传及未发现其他更好场景。 数字人配套的运营服务才是电商领域的关键,续费客户多因服务而非数字人本身。 数字人直播在店播场景效果较好,数据能与真人相当。 不建议商家依赖数字人,现阶段数字人服务多为辅助。 盈利方式: 直接卖数字人工具软件,分实时驱动(一年 4 6 万往上)和非实时驱动(一个月 600 元,效果差,市场价格混乱)两类。 提供数字人运营服务,按直播间成交额抽佣。 适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料;不适用于服装,过品快且衣服建模成本高。 适用于虚拟商品,如门票、优惠券等。 不适用于促销场景,涉及主播话术、套路及调动直播间氛围能力等。 店播场景效果最佳,数据基本能保持跟真人一样。 壁垒和未来市场格局: 长期看技术上无壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 能把客户服务好、规模化扩张的公司更有价值,疯狂扩代理割韭菜的公司售后问题多。 有资源、有业务的大平台下场可能带来降维打击,如全环节打通会绑定商家。 数字人简介: 数字人是运用数字技术创造出来的,虽现阶段不能高度智能,但在生活各类场景中已常见。业界尚无准确定义,一般按技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,应用于影视和直播带货,表现质量与建模精细度及动捕设备精密程度相关,视觉算法进步使无昂贵设备也能有不错效果。
2024-11-01
实景数字人
以下是关于实景数字人的相关信息: AI 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(如柳夜熙)、内容创作()等。 2. 真人形象数字人:用于直播卖货,营销/投流广告视频录制(如 Heygen)、语言学习(如 CallAnnie)等。 AI 数字人的价值: 1. 代替人说话,提升表达效率和营销效率。例如真人无法 24 小时直播,但数字人可以。 2. 创造真实世界无法完成的对话或交流。比如 AI talk 的实验探索,复活故去的亲人等。 AI 数字人面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货是落地场景,但不够刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制:存在声音、影像版权等问题,比如换脸、数字永生等。 如何构建高质量的 AI 数字人: 1. 构建数字人灵魂:让数字人具备各种智能,如记住个人信息、充当个人助手、在某个领域具备专业知识、处理复杂任务等。实现这些能力有几个工程关键点,包括写像人一样思考的 AI Agent,面临记忆模块、工作流模块、工具调用模块的构建挑战;灵魂部分驱动躯壳的实现,要定义灵魂部分的接口,躯壳通过 API 调用,注意包含情绪的语音表达以及保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做逻辑判断来播放预设,语音驱动口型相对成熟但闭源;要解决实时性问题,由于算法部分庞大,几乎不能单机部署,特别是大模型部分,会涉及网络耗时和模型推理耗时,低延时是亟需解决的问题;实现多元跨模态,不仅是语音交互,还可根据需求添加其他感官,如视觉通过添加摄像头数据和 CV 算法做图像解析等;处理拟人化场景,如插话、转移话题等情况,实现工程上的丝滑处理。 2. 虚拟数字人的分类和驱动方式:从驱动层面分为中之人驱动和 AI 驱动。中之人驱动运用动作捕捉和面部捕捉技术实现交互,有上限,缺乏高并发和量产化能力。AI 驱动使用 AI 技术创建、驱动和生成内容,赋予交互能力。从应用层面分为服务型、表演型和身份型。服务型虚拟数字人如虚拟主播、助手、教师、客服和医生等,为物理世界提供服务。表演型如虚拟偶像用于娱乐、影视等。身份型是物理世界“真人”的数字分身,在元宇宙中有广泛应用。 以上讨论的虚拟数字人是 AI 驱动的,主要集中于服务型虚拟数字人,强调其具有功能属性,隶属于业务层。
2024-11-01
最新的开源数字人项目
以下是一些最新的开源数字人项目: 1. 项目地址:https://github.com/wanh/awesomedigitalhumanlive2d ,选择了 live2d 作为数字人躯壳,其驱动方式相比 AI 生成式更可控和自然,相比虚幻引擎更轻量和简单,卡通二次元形象接受度更高。Live2D 的 SDK 驱动方式可参考官方示例:https://github.com/Live2D 。 2. 开源数字人组合方案: 第一步:先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits克隆声音,做出文案的音频。 第二步:使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。产品:https://synclabs.so/ 。 3. 构建数字人灵魂:可借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架。在开源项目中使用了 dify 的框架,可利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,便于扩展。
2024-11-01
有没有AI数字人的软件
以下是一些 AI 数字人的软件和相关信息: 互联网厂商: 腾讯: 阿里: 百度: 华为: 网易: 京东: 字节: 快手: 科大讯飞: 制作数字人的工具: HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 DID:提供 AI 拟真人视频产品服务和开发,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用这些工具时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。 此外,关于数字人的相关技术还包括: 算法开源代码仓库: ASR 语音识别: openai 的 whisper:https://github.com/openai/whisper wenet:https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件 TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc:https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 除了算法,人物建模模型可以通过手动建模实现,这样就完成了一个最简单的数字人。但这种简单的构建方式还存在很多问题,例如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。
2024-10-31
数字资产管理系统
数字资产管理系统是一种用于管理数字资产的系统。以下是一些相关信息: 法规方面:有规定指出,市场因数据集中而产生的不平衡会受到限制。该法规旨在促进数据处理服务之间的切换,涵盖客户终止数据处理服务合同、与不同提供商签订新合同、转移包括数据在内的所有数字资产,并在新环境中继续使用且保持功能等效等方面。数字资产指客户有权使用的数字格式元素,包括数据、应用、虚拟机等。 产品推荐: 特赞发布的 DAM.GPT:帮助企业利用 AI 管理数字资产,可通过拖拽图片入库,AI 识别图片内容,建立关联和标注属性,通过关键词搜索获取资产,进行人肉筛选,对资产进行中心化合规管理和分发,以及二次加工生产。 SnackPrompt:提示词共享社区,筛选和新建功能良好,支持复制到 ChatGPT 中,创建提示词时可设置动态字段,还能选择语言、风格和语气。 HeroPage:提示词分享社区,创建提示词时可设置动态内容,支持直接回填到 ChatGPT 使用。 Builder.io:Figma 插件支持用自然语言生成设计稿并修改,能将生成的设计稿转成前端代码复制。 X Studio3:小冰公司的音乐 AI 工具,上传歌词和音乐可指定 AI 语音唱歌,能对音频自定义。 Playlistable:AI 生成播放列表,链接 Spotify 播放列表并输入心情,自动生成符合心情的播放列表。
2024-10-30
大模型的数字资产管理系统
大模型的数字资产管理系统涉及以下方面: 大模型的整体架构: 1. 基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。 2. 数据层:包括静态的知识库和动态的三方数据集,是企业根据自身特性维护的垂域数据。 3. 模型层:包含 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)或多模态模型(如文生图、图生图等模型,训练数据与 llm 不同,用的是图文或声音等多模态的数据集)。 4. 平台层:如大模型的评测体系或 langchain 平台等,是模型与应用间的组成部分。 5. 表现层:即应用层,是用户实际看到的地方。 大模型的通俗理解: 大模型是输入大量语料,让计算机获得类似人类的“思考”能力,能够进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练、使用过程: 1. 找学校:训练 LLM 需要大量计算,GPU 更合适,只有购买得起大量 GPU 的才有资本训练大模型。 2. 确定教材:大模型需要大量数据,几千亿序列(Token)的输入基本是标配。 3. 找老师:用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导:为让大模型更好胜任某一行业,需要进行微调(fine tuning)指导。 5. 搬砖:就业指导完成后,进行如翻译、问答等工作,在大模型里称之为推导(infer)。 企业大模型的误区: 1. 总想搞一个宏大的产业大模型:目前大模型能力不足以支持,更适合在场景里解决专业问题。 2. 总想用一个万能大模型解决所有企业问题:企业不同场景可能需要不同的大模型。 3. 认为有了大模型,原来的 IT 系统就淘汰了:大模型需要与原业务系统连接协同工作,原数字化搞得越好,大模型效果越好。 4. 认为大模型不用做数字化,直接一步到位弯道超车:企业没有基本的 IT 系统、数字化系统,没有数据积累和知识沉淀,无法做大模型。
2024-10-30
我是小白。我已经拥有Kimi账号等,请告诉我具体如何学习,我第一步应该怎么做。
对于刚入门学习 AI 提示词的小白,第一步您可以这样做: 1. 确保您拥有一个大模型账号,并且熟悉与它们对话的方式。性能较强的如 ChatGPT4,国产平替有 。 2. 阅读 OpenAI 的官方文档,这是学习 prompt 的基础课,比如: 中文精读版的官方 Cookbook: 3. 如果阅读英文文档吃力,您可以使用以下工具或方法: 浏览器插件“沉浸式翻译” 利用提示词让 GPT 为您翻译和解释文档内容,比如:“我是一名中国的低年级学生,我无法看懂上述英文讲述的问题,请你为我用中文详细解释一下它讲了什么” 、“我还是没能理解,你能使用上述方法为我展示一个例子吗,这个例子要满足你列出的 16” 。 另外,您还可以找找网上的科普类教程,阅读 OpenAI 的文档以理解每个参数的作用和设计原理。
2024-09-02
怎么拥有一个自己的chatgpt账号
以下是拥有自己的 ChatGPT 账号的详细步骤: ChatGPT 是一种基于 GPT(生成式预训练变换器)架构的人工智能模型,由 OpenAI 开发。它是目前最先进的人工智能模型,是一种自然语言处理(NLP)工具,能够理解和生成接近人类水平的文本。 目前 ChatGPT 官网有两个版本,一个是 GPT3.5,一个是 GPT4。GPT3.5 是免费版本,只要拥有 GPT 账号就能使用,但智能程度不如 GPT4 高,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店和高级数据分析等插件。想要使用更多功能更智能的 GPT4 需要升级到 PLUS 套餐,PLUS 的收费标准是 20 美金一个月,当然 GPT4 还有团队版和企业版,功能更多、限制更少,但费用也更贵,一般推荐使用 PLUS 套餐。 在注册 ChatGPT 账号之前,先注册一个谷歌账号,因为国外很多软件支持谷歌账号一键登录,能省去很多日后的注册流程。目前注册谷歌账号支持国内手机号码和国内邮箱验证,过程如下: 1. 点击用 Google 账号登录。 2. 输入刚注册的谷歌邮箱,点击下一步。 3. 输入密码,点击下一步。 4. 确认用谷歌账号作为 ChatGPT 账号登录。 5. 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(要确保年龄在 18 岁以上),点击 Agree(同意)。 此外,关于 ChatGPT Team(团队版)的一些信息: 普通会员、GPT Plus、GPT Team Plan 的区别如下: |支付方式|账号|隐私|GPTs|其它| |||||| |无|自己的账号|对话数据会被用于训练|无|无| |海外信用卡、Appstrore 内购、Google Play 内购|自己的账号升级、保留对话历史记录和 GPTs|对话数据会被用于训练|署名可以选择个人名字或者认证域名|无| |海外信用卡|填写邮箱,自动发邮件邀请给已有的 GPT 会员、GPT 会员登录后会增加一个新的“账号/身份”可以随时和原有的 GPT 账号切换、一个账号可以加入多个团队,每个身份的资料独立、企业身份除了登录账号密码以及用户名和原有的 GPT 相同外,拥有独立的账号资料(比如历史记录和 GPTs)|不会被用于训练、账号的内容也同样不会被其它人看到(包括团队里的人)、创建的 GPTs 也只能自己看到(除非分享给别人)|署名只能使用自己的名字发布、GPTs 多一个“仅团队内成员使用”的选项|一个账号可以加入多个团队,每个团队账号都是相对独立的|
2024-08-16
怎样拥有一个对某一方面知识全知全能的伙伴?
拥有一个对某一方面知识全知全能的AI伙伴是一个理想化的目标,但现实中可能无法完全实现。然而,你可以通过以下方法来接近这个目标: 1. 专业领域定制:选择或开发一个专注于特定领域的AI系统,例如医学、法律、工程等。 2. 持续学习:利用机器学习技术,让AI系统能够不断从新的数据和信息中学习,以保持知识的更新。 3. 数据输入:提供大量的高质量数据作为训练材料,包括书籍、论文、在线资源等。 4. 专家合作:与领域内的专家合作,确保AI系统能够获取最准确和权威的知识。 5. 知识图谱构建:构建详细的知识图谱,将不同概念和实体之间的关系进行组织和链接。 6. 自然语言处理:强化AI的自然语言处理能力,使其能够理解和生成自然语言。 7. 交互式学习:设计AI系统以支持交互式学习,通过与用户的交流来不断优化自己的知识库。 8. 个性化定制:根据用户的需求和偏好,对AI系统进行个性化定制。 9. 多模态能力:开发AI的多模态能力,使其能够处理文本、图像、声音等多种类型的数据。 10. 伦理和合规性:确保AI系统遵循伦理准则和法律法规,特别是在处理敏感信息时。 11. 用户反馈:建立机制收集用户反馈,用于改进AI系统的性能和知识准确性。 12. 技术整合:整合最新的AI技术,如深度学习、强化学习等,以提高AI的智能水平。 13. 可扩展性:设计AI系统时考虑其可扩展性,以便未来可以添加更多的知识和功能。 14. 持续维护:定期维护和更新AI系统,以修复错误并整合新的知识。 15. 社区和网络:加入相关的AI社区和网络,与其他研究者和开发者交流,获取最新的信息和技术。 虽然创建一个全知全能的AI伙伴具有挑战性,但通过上述方法,你可以逐步构建一个高度专业化和智能化的AI助手,帮助你在特定领域内获取和应用知识。
2024-07-11