Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

英伟达数字员工

Answer

以下为一些英伟达数字员工相关的信息及典型案例: |名字|描述|性别|附件|框架|链接| |-|-|-|-|-|-| |Hóng|红杉中国首位数字员工,每秒可看百份商业计划书|女||小冰|https://news.stcn.com/sd/202207/t20220711_4732226.html| |Yumi|SK-II 的品牌虚拟形象|女|||https://www.soulmachines.com/| |冯小殊|北京冬奥会气象播报员,数字孪生人|男||小冰|https://mp.weixin.qq.com/s/SBCMHD2QWnk0ZEeGcNq_Pw| |夏语冰|中央美术学院研究生,师从邱志杰教授|女||小冰|https://mp.weixin.qq.com/s/rTX8xkn1_rsvCXj-J3kDBQ| |屈晨曦|屈臣氏的品牌虚拟形象|男||小冰|| |度晓晓|百度数字人|女||曦灵数字人|| |星瞳|QQ 炫舞系列虚拟代言人|女|||| |柳夜熙|一个会捉妖的虚拟美妆达人|女|||https://weibo.com/u/7431953645?refer_flag=1005055013_| |洛天依|中国内地虚拟歌手|女|||https://baike.baidu.com/item/%E6%B4%9B%E5%A4%A9%E4%BE%9D/6753346| |翎|虚拟偶像|女||魔珐数字人||

另外,句子互动致力于打造大模型驱动的领先数字员工。关于 AI 智能体,个人理解其相当于为个人提效的数字员工,您可以像老板给员工下达任务一样,通过清晰的目标和提示词让其为您工作,并且不断寻求反馈以实现目标。

Content generated by AI large model, please carefully verify (powered by aily)

References

1.7 AI 数字人+语音合成

[title]1.7 AI数字人+语音合成[heading2]典型案例|名字|描述|性别|附件|框架|链接|<br>|-|-|-|-|-|-|<br>|Hóng|红杉中国首位数字员工,每秒可看百份商业计划书|女||小冰|[https://news.stcn.com/sd/202207/t20220711_4732226.html](https://news.stcn.com/sd/202207/t20220711_4732226.html)|<br>|Yumi|SK-II的品牌虚拟形象|女|||[https://www.soulmachines.com/](https://www.soulmachines.com/)|<br>|冯小殊|北京冬奥会气象播报员,数字孪生人|男||小冰|[https://mp.weixin.qq.com/s/SBCMHD2QWnk0ZEeGcNq_Pw](https://mp.weixin.qq.com/s/SBCMHD2QWnk0ZEeGcNq_Pw)|<br>|夏语冰|中央美术学院研究生,师从邱志杰教授|女||小冰|[https://mp.weixin.qq.com/s/rTX8xkn1_rsvCXj-J3kDBQ](https://mp.weixin.qq.com/s/rTX8xkn1_rsvCXj-J3kDBQ)|<br>|屈晨曦|屈臣氏的品牌虚拟形象|男||小冰||<br>|度晓晓|百度数字人|女||曦灵数字人||<br>|星瞳|QQ炫舞系列虚拟代言人|女||||<br>|柳夜熙|一个会捉妖的虚拟美妆达人|女|||[https://weibo.com/u/7431953645?refer_flag=1005055013_](https://weibo.com/u/7431953645?refer_flag=1005055013_)|<br>|洛天依|中国内地虚拟歌手|女|||[https://baike.baidu.com/item/%E6%B4%9B%E5%A4%A9%E4%BE%9D/6753346](https://baike.baidu.com/item/%E6%B4%9B%E5%A4%A9%E4%BE%9D/6753346)|<br>|翎|虚拟偶像|女||魔珐数字人||

句子互动:打造大模型驱动的领先数字员工

[title]句子互动:打造大模型驱动的领先数字员工

XAIR:AI 智能体平台对决:腾讯元器与字节扣子的创新之路

[title]XAIR:AI智能体平台对决:腾讯元器与字节扣子的创新之路[heading2]一、概念定义这个观点没找到出处,感觉很适合卖课宣传。个人理解AI智能体是给个人提效的,相当于你拥有了自己的数字员工,在WaytoAGI的分享上大聪明(赛博禅心作者)也表达过这个观点,Agent就是你可以不断PUA你的电脑,让它能不能做的更好呀,来实现你制定的目标(加粗显示)。这和现实中老板给员工下达任务很像,每个员工有不一样的性格和能力,而下达任务目标时,目标是否清晰以及能否让员工get到很重要,这考验你写提示词的能力。而员工会基于它对目标的理解,根据计划去不断尝试完成,并且过段时间来寻求你的反馈。也就是你拥有了一个免费打工人,并且你还可以无限PUA它给你干活,这种感觉爽不爽?(图源:朋友截图,来源未知)

Others are asking
英伟达H200芯片
英伟达 H200 芯片具有以下特点: 推理速度是前代 H100 的两倍。 使用 HBM3e 内存,显存带宽提升至 4.8TB。 NVIDIA 创始人兼首席执行官黄仁勋在 SIGGRAPH 会议上宣布了相关信息,包括下一代 GH200 Grace Hopper 超级芯片平台。Grace Hopper 超级芯片 NVIDIA GH200 已于 5 月份全面投入生产,将具备连接多个 GPU 的能力。Nvidia 还在与 HuggingFace 合作,帮助开发人员在任何云上创建、测试和微调生成式 AI 模型。现在,可以使用 Nvidia 的 Omniverse 以 USD 格式生成 AI 内容,以创建虚拟世界,它包括与 Adobe、Wonder Dynamics 和 Luma AI 等多种 AI 相关的集成。 相关链接:https://x.com/xiaohuggg/status/1724239489302974768?s=20
2024-11-06
英伟达H200
英伟达 H200 是英伟达推出的一款 AI 芯片。其推理速度是前代 H100 的两倍,使用 HBM3e 内存,显存带宽提升至 4.8TB 。NVIDIA 创始人兼首席执行官黄仁勋在 SIGGRAPH 会议上宣布了相关信息,GH200 已于 5 月份全面投入生产,将具备连接多个 GPU 的能力。Nvidia 还正在与 HuggingFace 合作,帮助开发人员在任何云上创建、测试和微调生成式 AI 模型。 相关链接:https://x.com/xiaohuggg/status/1724239489302974768?s=20
2024-10-29
我想为公司员工培训下AI基础入门使用技巧,帮我写一个课程大纲
以下是为您提供的公司员工 AI 基础入门使用技巧培训课程大纲: 一、AI 基本概念 1. 人工智能的定义和术语 2. 主要分支(机器学习、深度学习、自然语言处理等)及联系 3. 历史、当前应用和未来发展趋势 二、AI 学习资源与路径 1. 推荐的入门文章和学习资料 2. 为初学者设计的课程,如李宏毅老师的课程 3. 在线教育平台(Coursera、edX、Udacity)课程介绍 三、AI 应用领域与选择 1. 图像、音乐、视频等领域介绍 2. 根据兴趣选择特定模块深入学习的建议 四、提示词技巧 1. 提示词的重要性和作用 2. 掌握提示词的方法和技巧 五、实践操作 1. 理论知识的实践应用 2. 分享实践作品和经验 六、体验 AI 产品 1. 介绍常见的 AI 聊天机器人(ChatGPT、Kimi Chat、智谱、文心一言等) 2. 了解其工作原理和交互方式 七、AI 在企业中的应用 1. 对于企业管理者 AI 辅助决策 员工培训计划 流程优化 AI 伦理和政策 2. 对于教育工作者 AI 辅助教案设计 个性化学习路径 创新教学方法 AI 素养教育 希望这个课程大纲能满足您的需求,帮助员工更好地了解和应用 AI 基础知识。
2025-01-16
我想知道关于数字员工的一些落地方案
以下是关于数字员工的一些落地方案: 易观的报告《2024 年 AI 加速数字员工智能化落地——中国数字员工市场发展及企业数字员工落地建议报告》探讨了数字员工的定义、价值、分类,并预测了发展趋势。报告指出,数字员工能提升企业运营效率、降低成本、保障工作质量与稳定性。其发展趋势包括智能水平提升、融入工作流程、成为企业核心资产、开发与运营平台的在线化与开放化、市场的业态多样化、企业专业数据的深度洞察与策略制定、组织能力的新要求、群体智能与组织孪生的纵深发展等。 实战课程方面,提供了一比一数字人分身的定制体验,能让您熟练使用 10 多种热门数字人工具,掌握数字人定制、唇形同步、声音克隆、视频翻译、AI 换脸等技术,了解数字人商业应用场景及行业现状,将数字人融入工作流,完美匹配场景和工具,还能获得自学路径,课程后能持续学习并完成落地。并且搭建了交流群,方便解决课程问题和与其他同学讨论学习心得。 在技术实现上,算法驱动的数字人涉及 ASR 语音识别(如 openai 的 whisper、wenet、speech_recognition 等)、AI Agent(大模型包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可使用 LangChain 的模块自定义)、TTS(如微软的 edgetts、VITS、sovitssvc 等)。人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。但这种简单的构建方式还存在一些问题,如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答等。
2025-01-08
我是一个公司的的开发人员,希望找到几个AI培训工具能够针对办公环境下的不同场景对员工进行培训使用。并且可以提供给员工使用
以下为您推荐一些适用于办公环境下对员工进行培训的 AI 培训工具: 1. AI 辅助决策工具:可在小规模决策中使用,例如分析客户反馈或市场趋势数据,作为决策参考。 2. 员工培训计划制定工具:帮助制定 AI 工具使用的培训计划,让团队成员了解如何在日常工作中有效利用 AI。 3. 流程优化工具:识别公司中可能受益于 AI 自动化的重复性任务,并测试 AI 解决方案的效果。 4. AI 伦理和政策制定工具:用于制定公司的 AI 使用政策,确保 AI 的应用符合伦理标准和法律要求。 对于不同场景和人员,还有以下针对性的工具: 1. 对于教育工作者: AI 辅助教案设计工具:尝试使用 AI 来帮助设计课程大纲或生成教学材料 ideas。 个性化学习路径工具:探索如何使用 AI 分析学生的学习数据,为不同学生制定个性化的学习计划。 创新教学方法工具:考虑如何将 AI 工具整合到课堂活动中,例如使用 AI 生成的案例研究或模拟场景。 AI 素养教育工具:开发一个简单的课程模块,教导学生了解 AI 的基础知识、应用领域及其对社会的影响。 2. 在职业规划方面: 职业选择和规划工具:学生可以通过产品了解 AI 技术在不同职业中的应用,评估自己的兴趣和技能,选择合适的职业路径,并制定详细的职业规划。 技能提升工具:根据职业目标,学生可以获得个性化的学习建议和资源,提升自己在 AI 领域的技能,为未来的就业做好准备。 职业发展指导工具:职场新人可以根据自身的职业目标和市场需求,制定职业发展计划,明确短期和长期的职业目标。 职业转型支持工具:对于希望从其他领域转型到 AI 相关领域的从业者,产品可以提供详细的转型路径和必要的技能培训资源,帮助他们顺利转型。 在 PPT 制作方面,以下 AI 工具可供选择: 1. MindShow 2. 爱设计 3. 闪击 4. Process ON 5. WPS AI 选择工具时应根据实际需求进行调整,试用和体验总比盲目跟风更为明智。
2025-01-06
数字员工
数字员工是基于大语言模型为大脑,串联所有已有的工具和新造的 AI 工具的智能体。 在成为基于 Agent 的创造者方面,数字员工的学习路径为:数字员工(agent)=学历(大模型)+察言观色(观察)+逻辑思维(推理)+执行(SOP)。创造者的学习也依照这个方向,用大模型和 Agent 模式把工具串起来,着重关注在创造能落地 AI 的 agent 应用。大模型的开发研究和演进,交给学术界和大厂。 Agent 工程(基础版)如同传统的软件工程学,有一个迭代的范式: 1. 梳理流程:梳理工作流程 SOP,并拆解成多个单一「任务」和多个「任务执行流程」。 2. 「任务」工具化:自动化每一个「任务」,形成一系列的小工具,让机器能完成每一个单一任务。 3. 建立规划:串联工具,基于 agent 框架让 bot 来规划「任务执行流程」。 4. 迭代优化:不停迭代优化「任务」工具和「任务执行流程」规划,造就能应对实际场景的 Agent。 在摊位信息方面,有关于数字员工的摊位,其主题为“AI 数字员工”,内容为为企业和个人提供数字劳动力,解决重复性、创意性工作难题。体验 demo 包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库。 在招聘信息方面,序智科技基于大模型技术打造数字劳动力(AlAgent)平台,招聘后端开发工程师和前端开发工程师等。后端开发工程师需要参与公司后端服务的设计、开发和维护,优化后端架构,提升系统性能和稳定性等。要求具备计算机相关专业本科及以上学历,3 年以上后端开发经验等。
2025-01-03
推荐几款陪练ai机器人,用于员工培训
以下为您推荐用于员工培训的陪练 AI 机器人: Coze 平台的英语陪练 AI Bot: 首先打开扣子的首页,直接点击左上角的创建 AI Bot 按钮。 在弹窗输入 Bot 的相关信息即可完成创建,接下来可细化其功能。 根据功能需求设计人设与回复逻辑。 基于需求调整模型设置,比如将对话轮数改为 20 轮。 主要使用了英文名言警句等插件。 设置开场白和预置问题,预置问题有参考价值。 最后设置 AI Bot 的语音,选择亲切的英语音色。 使用建议:直接使用豆包的语音通话方式,效果更好。 实际演示效果:包括视频演示、文字交流中的训练纠错、解读上传图片或文件的英文内容(目前支持在 Coze 端使用,豆包端暂不支持)。 试用链接:Coze 端
2024-12-30
如何让员工更好的使用豆包
以下是关于如何让员工更好地使用豆包的相关信息: 1. 访问途径: 网址:https://www.coze.cn/home APP:直接搜索“豆包” 2. 注册方式:手机号、抖音号或飞书号 3. 优点: 不需要🪜 可以捏好给别人用 可以扩展聊天 AI 的基础能力(搜索、作图、文档等) 4. 体验时间:约 5min 5. 实际使用中的问题及解决方式: 有时讲中文有时讲英文:可通过持续学习和优化使用方法来改善。 一句话太长听不懂且需要翻译:可通过优化使用方法解决。 需要纠正发音但只是对话:可通过优化使用方法解决。 6. 持续学习和优化:约定每周末通过电话为使用者优化当前使用方法,帮助他们更深入地学习和使用 AI。 豆包 AI 是抖音旗下基于云雀大模型开发的 AI 工具,提供聊天机器人、写作助手以及英语学习助手等功能,可以回答各种问题并进行对话,帮助人们获取信息。访问网址是:https://www.doubao.com/ 。使用大模型时,初级可先纯聊,不懂就问,如问豆包是什么、coze 是什么、有何竞品、使用价格如何等。为提高搜索效率,可学习 prompt,coze 有优化 prompt 模板,豆包也可一键生成 prompt。
2024-12-25
我想要能代替我直播的数字人工具
以下是一些能代替您直播的数字人工具相关信息: 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(柳夜熙)、内容创作等。 2. 真人形象数字人:用于直播卖货、营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等。 数字人的价值: 1. 代替人说话,提升表达效率和营销效率,例如真人做不到 24 小时直播,但数字人可以。 2. 创造真实世界无法完成的对话或交流。 数字人面临的问题: 1. 平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,而微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间,依赖大模型技术提升。 3. 需求限制:直播带货算个落地场景,但不刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。 4. 伦理/法律限制:声音、影像版权等,比如换脸、数字永生等等。 数字人直播盈利方式: 1. 直接卖数字人工具软件。分实时驱动和非实时驱动两类,实时驱动在直播时能改音频话术,真人接管。市面价格在一年 4 6 万往上(标准零售价)。非实时一个月 600 元,效果很差,类似放视频的伪直播,市场价格混乱,靠发展代理割韭菜。 2. 提供数字人运营服务,按直播间成交额抽佣。 AI 直播卖货适用品类和场景: 1. 适用于不需要强展示的商品,如品牌食品饮料。如果服装就搞不了,过品快,衣服建模成本高。 2. 适用于虚拟商品,如门票、优惠券等。 3. 不适用于促销场景,这涉及主播话术、套路,调动直播间氛围能力等。 4. 电商直播分为达播跟店播,数字人直播跑下来效果最好的是店播,数据基本能保持跟真人一样(朋友公司数据)。 AI 直播的壁垒和未来市场格局: 1. 时间拉长,技术上没壁垒。但目前看仍有技术门槛,单纯靠开源算法拼的东西,实时性、可用性不高。比如更真实的对口型,更低的响应延迟等。 2. 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。因为它只是工具,迁移成本低。 3. 真正把客户服务好,能规模化扩张的公司更有价值。疯狂扩代理割韭菜,不考虑客户效果的公司,售后问题很麻烦。 4. 有资源、有业务的大平台下场,可能会带来降维打击,例如剪映马上要做,如果不仅提供数字人,还提供货品供应链、数据复盘分析等等,全环节打通会绑定商家,很难打。 虚拟主播的驱动方式: 目前,虚拟数字人从技术驱动方式上可以分为两类,一种是“中之人”驱动,另一种是由 AI 驱动。 “中之人”通过动作捕捉和面部捕捉技术,实现虚拟人与现实的交互。动作捕捉技术可以提供一套全身动捕硬件设备,售价约为 29000 元,另需缴纳 800 元的软件年度服务费。如果只需要捕捉面部表情,价格则约为 6000 元左右。总的来说,“中之人”是虚拟人物的“皮囊”,而“中之人”才是其真正的灵魂。 AI 驱动是通过 AI 技术实现虚拟人的创建、驱动和内容生成的综合技术,使其具备感知、表达等交互能力。AI 驱动的虚拟人能够智能地读取并解析外部输入信息,并根据解析结果做出决策,然后驱动人物模型生成相应的语音和动作,从而与用户进行互动。这种“一站式”技术让虚拟数字人具备更加自然、智能、人性化的交互能力。
2025-01-31
数字人制作
以下是一些制作数字人的工具及相关介绍: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。优点是人物灵活,五官自然,视频生成快;缺点是中文人声选择较少。使用方法为点击网址注册后,进入数字人制作,选择 Photo Avatar 上传照片,然后按步骤操作。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,只需上传人像照片和输入内容,平台的 AI 语音机器人会自动转换成语音并合成逼真的会开口说话的视频。优点是制作简单,人物灵活;缺点是免费版下载后有水印。使用方法为点击网址,点击右上角的 Create vedio,然后按步骤操作。 4. KreadoAI:优点是免费,功能齐全;缺点是音色较 AI。使用方法为点击网址注册后,选择“照片数字人口播”功能,然后按步骤操作。 5. 剪映:在剪映右侧窗口顶部打开“数字人”选项,选取免费且适合的数字人形象,添加数字人,还可增加背景图片等进行美化。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。内容由 AI 大模型生成,请仔细甄别。
2025-01-28
数字人工具
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 此外,还有适合小白用户的开源数字人工具,其特点是一键安装包,无需配置环境,简单易用。功能包括生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容 Windows、Linux、macOS,模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。使用时需下载 8G+3G 语音模型包,启动模型即可。相关链接:GitHub: 。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。内容由 AI 大模型生成,请仔细甄别。
2025-01-24
我想用扣子完成AI数字分身的搭建,应该怎么操作
以下是使用扣子完成 AI 数字分身搭建的步骤: 1. 登录扣子官网(https://www.coze.cn/)并注册。 2. 创建个人 Bot: 点击个人空间。 点击创建 Bot。 填入 Bot 的名字和功能介绍,以及上传或生成对应的头像。如果没想好,可以先随便填,后面可更改。 3. 在搭建生产力工具的过程中,要先深入了解自己的工作内容和需求,做出有针对性的规划。 4. 通过整合知识库,并结合提示词进行情感或行为上的描述,创建一个 Bot,形成自己的数字分身。 5. 构建整个 Flow 时要尽量减少控件使用(非必要不增加),越少的控件代表越少的逻辑,越少的逻辑代表越小的运行风险。 6. 对于复杂的批处理任务,尽量平衡批处理次数和并发,同时还要考虑模型的推理速度,不然会增大推理失败的概率。 需要注意的是,Coze 目前提供的组件,包括 bot 等工具,能满足一些基本的生产力搭建需求。虽然现阶段它还不支持循环等高级功能,但未来有望支持更多工作流的设计模式。自 Coze 推出以来,它已明确面向 C 端用户,这些用户能从中获得实质性好处。
2025-01-24
开源项目数字人
以下是关于开源项目数字人的相关内容: 一、构建高质量的 AI 数字人 1. 构建数字人躯壳 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单。 卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 2. 构建数字人灵魂 自建代码实现各模块开发工作量巨大,迭代难度高,对于个人开发者不现实。 推荐借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等。 在开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。 数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展。 上述 Dify 接口使用注意事项: 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。 二、写在最后 数字人在未来肯定会有很多的应用场景,比如家庭中有数字人管家,全面接管智能家居或其他设备;学校中有数字人老师,孜孜不倦的为学生答疑解惑;商场里有数字人导购,为顾客提供指路、托管个人物品等悉心服务。 数字人在未来肯定还有很多的技术突破,比如可以将五感数据作为输入(例如声音、图像、气味、震动等等),将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点,面部混合形状参数等);次世代的算法可以自我迭代升级,也可以拿到感官输入以及躯壳控制方法后,自行演化躯壳控制方式。 作者希望通过 Dify 搭建数字人的开源项目,给大家展现低门槛高度定制数字人的基本思路,但数字人的核心还是在于我们的 Agent,也就是数字人的灵魂,怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到,随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,用户在需要使用 AI 的能力时,AI 既可以给你提供高质量的信息,也能关注到你的情绪,给你一个大大的微笑,也许到了那时,数字世界也开始有了温度。
2025-01-22
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21