Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI数字人的最新消息

Answer

以下是关于 AI 数字人的最新消息:

  • 4 月 25 日,Synthesia 推出新型虚拟数字人 Expressive-1,能通过脚本预测表情,可自动解析和理解文本情绪,实现表情和声音同步。链接:https://x.com/imxiaohu/status/1783505405488054433
  • 11 月 7 日,百度虚拟数字人“度晓晓”携文心一言入驻淘宝。链接:https://x.com/xiaohuggg/status/1721876724798136544?s=20
Content generated by AI large model, please carefully verify (powered by aily)

References

XiaoHu.AI日报

🔔Xiaohu.AI日报「4月25日」 ✨✨✨✨✨✨✨✨1⃣️🎭 Synthesia新技术展示:推出新型虚拟数字人Expressive-1,能通过脚本预测表情。数字人可自动解析和理解文本情绪,实现表情和声音同步。🔗 https://x.com/imxiaohu/status/17835054054880544332⃣️🌐 360 AI浏览器新功能:新版AI浏览器增加了视频总结、提问、转录和翻译功能。支持本地和网络视频的内容分析,但无法提取无对白视频摘要。🔗 http://browser.360.cn/ai🔗 https://x.com/imxiaohu/status/17834954374226497193⃣️📚全球最大AI知识库一周年:通往AGI之路网站访问量突破1000万。网站内容丰富,旨在推动AI知识的普及。🔗 http://WaytoAGI.com 🔗 https://x.com/imxiaohu/status/17834750028154716694⃣️🤖日本横须賀市AI市长:使用AI技术克隆市长,用于发布英语信息。技术应用广泛,包括灾难信息传播和旅游信息发布。

XiaoHu.AI日报

🔔Xiaohu.AI日报「4月25日」 ✨✨✨✨✨✨✨✨1⃣️🎭 Synthesia新技术展示:推出新型虚拟数字人Expressive-1,能通过脚本预测表情。数字人可自动解析和理解文本情绪,实现表情和声音同步。🔗 https://x.com/imxiaohu/status/17835054054880544332⃣️🌐 360 AI浏览器新功能:新版AI浏览器增加了视频总结、提问、转录和翻译功能。支持本地和网络视频的内容分析,但无法提取无对白视频摘要。🔗 http://browser.360.cn/ai🔗 https://x.com/imxiaohu/status/17834954374226497193⃣️📚全球最大AI知识库一周年:通往AGI之路网站访问量突破1000万。网站内容丰富,旨在推动AI知识的普及。🔗 http://WaytoAGI.com 🔗 https://x.com/imxiaohu/status/17834750028154716694⃣️🤖日本横须賀市AI市长:使用AI技术克隆市长,用于发布英语信息。技术应用广泛,包括灾难信息传播和旅游信息发布。

XiaoHu.AI日报

🔔小互的推特11月7日更新番外✨✨✨✨✨✨✨✨9️⃣今天被OpenAI刷屏了帮你们总结下今天别的AI新闻🚀马斯克xAI公司宣布推出PromptIDE开发工具🛑阿里云A100服务器业务暂停出租算力价格飞涨🎙️微软发布7款针对对话优化的AI语音,更加逼真自然🔍谷歌正测试2项AI功能,以改善YouTube观看体验🎮微软将AI引入Xbox,可生成AI角色、故事剧情等🏫英国一学校启用人工智能担任校长,帮助教师解学生🤖百度虚拟数字人「度晓晓」携文心一言入驻淘宝👥美团推出AI产品Wow定位AI朋友社区🔗https://x.com/xiaohuggg/status/1721876724798136544?s=20

Others are asking
ai音乐的教程
以下是为您提供的 AI 音乐相关的教程资源: 1. Suno 教程:https://waytoagi.feishu.cn/wiki/KA1GwEi8yifRmMkOM9icr8EjnAd 2. Udio 教程:https://waytoagi.feishu.cn/wiki/DSktw8uBniPOdtkt3eeccmdcnct?from=from_copylink 3. 音乐资讯:https://waytoagi.feishu.cn/wiki/UD4uw9qmYiKW9kkxNeXcUDCbnog 4. 创作案例:https://waytoagi.feishu.cn/wiki/AahewcMOBiIQ9vks1XzcVaNange 5. 风格流派:https://waytoagi.feishu.cn/wiki/NSKGwclQNig6INkGWkKcsLQNnRb 此外,7 月 20 日的 AI 音乐共学中,嘉宾 igoo2u 分享了以下内容: 1. 00:06 开始,AI 音乐制作分享,包括曲风分类、制作逻辑与软件使用,并通过实际案例详细讲解。 2. 31:58 开始,FL studio 软件介绍及基础操作演示,该软件可对 AI 生成的曲子进行二次优化,擅长电子乐,介绍了软件主要界面和基础操作。 3. 52:33 开始,FL Studio 基础教程,包括大小调及和弦构架讲解,介绍了在 SUB 层的 base 中编写曲子的方法和操作技巧,以及基础阅历。 4. 01:18:10 开始,AI 做歌的优势、弊端及二次编辑方法。
2025-01-27
企业AI开发
企业 AI 开发包括以下重要内容: 企业级 AI 应用类型: 智能体应用(Assistant):基于上下文对话,自主决策并调用工具完成复杂任务的对话式 AI 应用。通过简单配置可快速上手实现基本功能,适用于客户服务、个人助理、技术支持等场景。详情参见。 工作流应用(Workflow):将复杂任务拆解为若干子任务,以提高工作流程可控性的流程式 AI 应用。用户可通过拖拽节点创建自定义任务流程,适用于 AI 翻译等场景。详情参见。 智能体编排应用:支持多智能体协作的流程式 AI 应用,能编排多个智能体的执行逻辑,适用于综合调研报告、软件开发团队等场景。详情参见。 应避免的人工智能陷阱: 不要以为 AI 可以做任何事,要考虑技术、数据和工程资源的限制,有许多 AI 做不到的事情。 不要以为只雇佣 2 3 个机器学习工程师就可以满足公司的使用场景。机器学习人才很重要,也应让工程师与业务人才交流,寻找可行、有价值的项目。 不要以为 AI 项目一次就能成功,AI 开发通常需要多次尝试。 不要期待直接使用传统的计划流程而不用改变,实际需要和 AI 团队测算时间节点、里程碑与 KPI。 不需要极其优秀的 AI 人才后才启动项目,持续构建团队,普通工程师也能提供有价值和可行的项目。 阿里云百炼: 是基于通义系列大模型和开源大模型打造的一站式大模型服务平台,提供「生成式大模型的应用编排搭建能力」和「企业大模型的全链路训练部署能力」,是企业 AI 时代的首选。 核心能力和优势包括大模型 API 服务(高可用、高性能、高性价比),提供通义闭源和开源系列大模型,以及图片、语音等多模态大模型和国内优质三方大语言模型;AI 应用搭建(可观测、可干预、可追踪),提供 RAG 智能体应用、工作流编排和智能体编排三类使用场景的应用构建能力,以及包含插件能力、运营工具箱等适配工具,实现 10 分钟拖拉拽快速搭建 AI Agent。 提供很多行业级的解决方案,如短剧剧本创作、企业线索挖掘、泛企业 VOC 挖掘等。 体验入口:https://bailian.console.aliyun.com//home (需要登陆阿里云账号,也可以使用支付宝、钉钉、手机号快速注册登陆),建议注册后先进行实名认证,以方便后续体验工作及领取免费学习云资源。
2025-01-27
企业落地AI的怎么开展,有哪些团队,场景一般是哪些
企业落地 AI 可以按照以下步骤开展: 1. 启动试点项目来获得动能:选择几个小项目,在 6 12 个月内展示成效,项目可以内部进行或外包。尽量选择能够成功而非最有价值的项目。 2. 建立公司内部的人工智能团队:搭建集中统一的 AI 团队,再从中挑选人员协助不同业务部门,便于统一管理。同时建立全公司范围内的平台,如软件平台、工具或数据基础设施。 3. 提供广泛的人工智能培训:高层了解 AI 能为企业做什么,进行策略制定和资源分配;部门领导了解如何设置项目方向、资源分配与监控进度;培养内部工程师,开展相关项目。 4. 制定人工智能策略:深度了解 AI 并结合自身业务制定策略,设置与 AI 良性循环相一致的公司策略,如网络搜索或农业公司的案例。同时考虑创建数据策略,如战略数据采集,建造统一的数据仓库。 企业落地 AI 常见的场景包括: 1. 智能扬声器:包括探测触发词或唤醒词、语音识别、意图识别、执行相关程序等环节。 2. 自动驾驶汽车:涉及汽车检测、行人检测、运动规划等方面,需要多种传感器和技术。 人工智能团队的角色通常有: 1. 软件工程师:负责软件编程工作,在团队中占比 50%以上。 2. 机器学习工程师:创建映射或算法,搜集和处理数据。 3. 机器学习研究员:开发机器学习前沿技术,可能需要发表论文或专注研究。 4. 应用机器学习科学家:从学术文献中寻找技术解决问题。 5. 数据科学家:检测和分析数据。 6. 数据工程师:整理数据,确保其安全、易保存和读取。 7. AI 产品经理:决定用 AI 做什么,判断其可行性和价值。
2025-01-27
财经AI怎么落地
财经 AI 的落地可以从以下几个方面考虑: 1. 成本效益的运营: 消费者信息分散在多个数据库,交叉销售和预测需求面临挑战。 金融服务是情感购买,决策树复杂且难以自动化,需大量客服团队。 金融服务高度受监管,人类员工必须参与流程以确保合规。生成式 AI 能大幅提高获取数据、理解情境和合规法律等劳动密集型功能的效率。 2. 实现五个目标: 个性化的消费者体验:根据客户需求提供定制服务。 成本效益高的运营:优化流程,降低成本。 更好的合规性:确保符合复杂的法律规定。 改进的风险管理:有效识别和应对风险。 动态的预测和报告:提供更准确和及时的信息。 3. 面临的挑战: 使用金融数据训练 LLM:新进入者可能先使用公开数据,再用自身数据;现有参与者虽有专有数据优势,但可能过于保守,新进入者可能更具竞争优势。 模型输出准确性:金融问题答案影响大,需尽可能准确,初期人类常作为最终验证环节。 总之,生成式 AI 为金融服务带来巨大变革,现有参与者和初创公司将在关键挑战上竞争,最终受益的将是金融服务的消费者。
2025-01-27
企业财经领域落地AI怎么落地
企业财经领域落地 AI 可以考虑以下几个方面: 1. 采用创新和迭代的监管方法: 考虑如何利用可信 AI 的工具,如保证技术和技术标准,来支持监管合规。 积极主动地与政府对框架的监测和评估进行合作。 2. 关注行业发展趋势: 例如,生成式 AI 在金融服务业有巨大潜力,能催生个性化客户解决方案、更高效的运营、更好的合规和风险管理,以及更动态的预测和报告。 3. 应对挑战: 使用金融数据训练大型语言模型(LLMs):新进入者可先使用公开金融数据微调模型,现有参与者可利用专有数据,但现有金融服务公司可能过于保守,这给新进入者带来竞争优势。 确保模型输出准确性:金融问题答案影响重大,新的 AI 模型需尽可能准确,初期人类常作为最终验证环节。 同时,随着技术的发展,如大型语言模型的进步,为企业财经领域带来了更多的机遇,但也需要注意当前生成式 AI 输出的局限性,特别是在需要判断或精确答案的领域,不能完全依赖其准确性,至少需要人工审查。随着模型的改进、额外训练数据的加入和与数学模块的整合,其应用将有新的可能。
2025-01-27
企业落地AI项目应该怎么办
企业落地 AI 项目可以参考以下建议: 1. 资源评估与规划: 在引入或升级 AI 技术前,根据企业自身资源和能力进行细致评估与计划,确保所选方案可行且具成本效益。 依据资源和能力选择并规划适当的 AI 技术应用范围,评估企业现有的财务、技术基础设施、人员技能等资源,分析技术采纳和应用能力。 根据评估结果规划 AI 技术应用范围和实施步骤,可先从试点项目开始,如在客户服务领域引入 AI 聊天机器人。 明确预算,选择成本效益高的 AI 解决方案,基于财务状况设定预算,对比成本和预期收益,选择具灵活性和可扩展性的方案,实施后持续监控投资回报,适时调整预算和投资计划。 2. 逐步实施与调整: 采取循序渐进方式,从小规模试点开始,根据实际效果和反馈逐步扩展和优化。 先通过小规模试点验证 AI 技术可行性和有效性,降低风险,选择具代表性且风险可控的业务领域,如客户服务、数据分析或市场营销等,并设立监控机制跟踪性能和影响。 根据试点结果和反馈不断调整和完善 AI 应用方案,收集用户、员工和管理层的反馈,分析表现并识别改进领域,在试点成功后逐步扩大应用范围,持续监控效果。 3. 学习笔记:AI for everyone 吴恩达 启动试点项目获得动能,选择可能成功而非最有价值的项目,在 6 12 个月内展示成效,项目可内部或外包。 建立公司内部的人工智能团队,搭建集中统一的 AI 团队,从中挑选人员协助不同业务部门,方便统一管理,建立全公司范围的平台。 提供广泛的人工智能培训,高层了解 AI 为企业的作用及策略、进行资源分配,部门领导了解如何设置项目方向、资源分配与监控进度,培养内部工程师。 制定人工智能策略,深度了解 AI 并结合自身业务制定策略,设置与 AI 良性循环相一致的公司策略,考虑创建数据策略,建造统一的数据仓库。
2025-01-27
ai最新消息
以下是 AI 领域的一些最新消息: 10 月: Gartner 发布 2025 年十大战略技术趋势。 开源多模态 LLM 框架 Janus。 开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use 以及 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。 3 月: 有 23 个 AI 新产品,包括来自大公司和成熟创业公司的新产品、有用的、有趣的以及华人开发者所搭建的小产品。 有关于呼吁暂停/禁止大模型训练以及研究 AI 技术发展、垂直领域应用、商业落地形态和人机共生问题的不同立场。 2024 年: 来自剑桥大学、AI 风险投资公司 Air Street Capital 创始人兼 CEO Nathan Benaich 和来自牛津大学、Air Street Capital 平台负责人 Alex Chalmers 共同发表《State of AI Report》2024 人工智能现状报告,主要围绕人工智能(AI)领域的最新进展、政治动态、安全挑战及未来预测几大方面进行说明。
2024-12-16
chatpgt有什么最新消息
以下是关于 ChatGPT 的一些最新消息: Gradio 发布了 Gradio Discord Bot,允许在 Discord 服务器中使用 Spaces 中的演示进行语言翻译、文字转语音、文字生成图像等。 Hugging Face 现在可以使用 Docker Spaces。 OpenAI 预测到 2024 年收入将达到 10 亿美元。 ChatGPT 推出了更新,现在可以查看以前的历史对话。 2024 年 1 月 27 日,ChatGPT 又更新了,推出了新的 Mention 功能,可以在聊天窗口中通过@直接召唤任何 GPTS。 2024 年 4 月 26 日,ChatGPT 更新,正式推出个性化新功能,可以记住用户过去提到的内容,用户可自行决定要记住什么。
2024-09-26
24小时内中国AI医美最新消息
以下是为您找到的关于中国 AI 医美的相关消息: 有一个将 AI 和中医结合的项目,其先是用摄像头观察患者的口腔和舌苔,再用指尖传感器号脉,然后根据观测的数据生成选择题让患者作答,最后 AI 会生成药方。该项目目前应用在辅助看诊,能够提高诊疗效率,创始人的愿景是在未来实现 24 小时独立问诊开药。 但目前没有关于 24 小时内中国 AI 医美最新消息的准确和详尽内容。要获取最新的信息,您可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台。
2024-09-17
24小时内中国AI前沿科技最新消息
以下是 24 小时内中国 AI 前沿科技的最新消息: 阿里 CEO 吴泳铭表示将开源国内最大 720 亿参数模型。 京东 CEO 称正在测试 AI 自动生成营销内容。 此外,还有一些国际上的 AI 相关消息: 苹果新专利:CGR 技术生成虚拟形象,展示穿戴效果。 微软 AI 专利:充当治疗师,疏导心理问题。 苹果改造 Siri:明年或用大语言模型。 谷歌 Open Se Cura:为 Pixel 带来低功耗 AI。 微软计划:AI 助手 Copilot 将进入 Windows 10。 亚马逊成立 AI 训练团队,投资数百万美金。 ChatGPT 持续宕机,CEO 道歉。 GitHub Universe 2023 新功能:新的 Copilot 聊天功能,Copilot 支持手机应用,GitHub Copilot Workspace,产问题查询 GitHub Copilot 企业版:每月 39 美元的高级服务。GitHub Copilot 合作伙伴计划,GitHub 高级安全功能。
2024-09-17
AI 数字人最新消息
以下是关于 AI 数字人的最新消息: 目前业界对于数字人的定义尚未统一,一般可根据技术栈分为真人驱动和算法驱动两类。算法驱动数字人的相关开源代码有很多,如 ASR 语音识别方面的 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenete2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition,这是一个语音识别的接口集合,包含不同实现的语音识别接口)。AI Agent 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可使用 LangChain 的模块进行自定义(https://www.langchain.com/)。TTS 方面,有微软的 edgetts(https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费)、VITS(https://github.com/jaywalnut310/vits)以及专注于唱歌的 sovitssvc(https://github.com/svcdevelopteam/sovitssvc,前段时间很火的 AI 孙燕姿就与其相关)。 4 月 25 日的消息: Synthesia 推出新型虚拟数字人 Expressive1,能通过脚本预测表情,数字人可自动解析和理解文本情绪,实现表情和声音同步。链接:https://x.com/imxiaohu/status/1783505405488054433 360 AI 浏览器新版增加了视频总结、提问、转录和翻译功能,支持本地和网络视频的内容分析,但无法提取无对白视频摘要。链接:http://browser.360.cn/ai https://x.com/imxiaohu/status/1783495437422649719 全球最大 AI 知识库“通往 AGI 之路”网站访问量突破 1000 万,网站内容丰富,旨在推动 AI 知识的普及。链接:http://WaytoAGI.com https://x.com/imxiaohu/status/1783475002815471669 日本横须贺市使用 AI 技术克隆市长,用于发布英语信息,技术应用广泛,包括灾难信息传播和旅游信息发布。
2024-09-12
ai最新消息
以下是 11 月 7 日的 AI 最新消息: 马斯克 xAI 公司宣布推出 PromptIDE 开发工具。 阿里云 A100 服务器业务暂停出租,算力价格飞涨。 微软发布 7 款针对对话优化的 AI 语音,更加逼真自然。 谷歌正测试 2 项 AI 功能,以改善 YouTube 观看体验。 微软将 AI 引入 Xbox,可生成 AI 角色、故事剧情等。 英国一学校启用人工智能担任校长,帮助教师了解学生。 百度虚拟数字人「度晓晓」携文心一言入驻淘宝。 美团推出 AI 产品 Wow 定位 AI 朋友社区。链接:https://x.com/xiaohuggg/status/1721876724798136544?s=20 当前 AI 前沿技术点包括: 1. 大模型(Large Language Models):如 GPT、PaLM 等。 2. 多模态 AI:视觉语言模型(CLIP、Stable Diffusion)、多模态融合。 3. 自监督学习:自监督预训练、对比学习、掩码语言模型等。 4. 小样本学习:元学习、一次学习、提示学习等。 5. 可解释 AI:模型可解释性、因果推理、符号推理等。 6. 机器人学:强化学习、运动规划、人机交互等。 7. 量子 AI:量子机器学习、量子神经网络等。 8. AI 芯片和硬件加速。
2024-08-07
数字人工具
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 此外,还有适合小白用户的开源数字人工具,其特点是一键安装包,无需配置环境,简单易用。功能包括生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容 Windows、Linux、macOS,模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。使用时需下载 8G+3G 语音模型包,启动模型即可。相关链接:GitHub: 。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。内容由 AI 大模型生成,请仔细甄别。
2025-01-24
我想用扣子完成AI数字分身的搭建,应该怎么操作
以下是使用扣子完成 AI 数字分身搭建的步骤: 1. 登录扣子官网(https://www.coze.cn/)并注册。 2. 创建个人 Bot: 点击个人空间。 点击创建 Bot。 填入 Bot 的名字和功能介绍,以及上传或生成对应的头像。如果没想好,可以先随便填,后面可更改。 3. 在搭建生产力工具的过程中,要先深入了解自己的工作内容和需求,做出有针对性的规划。 4. 通过整合知识库,并结合提示词进行情感或行为上的描述,创建一个 Bot,形成自己的数字分身。 5. 构建整个 Flow 时要尽量减少控件使用(非必要不增加),越少的控件代表越少的逻辑,越少的逻辑代表越小的运行风险。 6. 对于复杂的批处理任务,尽量平衡批处理次数和并发,同时还要考虑模型的推理速度,不然会增大推理失败的概率。 需要注意的是,Coze 目前提供的组件,包括 bot 等工具,能满足一些基本的生产力搭建需求。虽然现阶段它还不支持循环等高级功能,但未来有望支持更多工作流的设计模式。自 Coze 推出以来,它已明确面向 C 端用户,这些用户能从中获得实质性好处。
2025-01-24
开源项目数字人
以下是关于开源项目数字人的相关内容: 一、构建高质量的 AI 数字人 1. 构建数字人躯壳 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单。 卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 2. 构建数字人灵魂 自建代码实现各模块开发工作量巨大,迭代难度高,对于个人开发者不现实。 推荐借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等。 在开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。 数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展。 上述 Dify 接口使用注意事项: 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。 二、写在最后 数字人在未来肯定会有很多的应用场景,比如家庭中有数字人管家,全面接管智能家居或其他设备;学校中有数字人老师,孜孜不倦的为学生答疑解惑;商场里有数字人导购,为顾客提供指路、托管个人物品等悉心服务。 数字人在未来肯定还有很多的技术突破,比如可以将五感数据作为输入(例如声音、图像、气味、震动等等),将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点,面部混合形状参数等);次世代的算法可以自我迭代升级,也可以拿到感官输入以及躯壳控制方法后,自行演化躯壳控制方式。 作者希望通过 Dify 搭建数字人的开源项目,给大家展现低门槛高度定制数字人的基本思路,但数字人的核心还是在于我们的 Agent,也就是数字人的灵魂,怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到,随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,用户在需要使用 AI 的能力时,AI 既可以给你提供高质量的信息,也能关注到你的情绪,给你一个大大的微笑,也许到了那时,数字世界也开始有了温度。
2025-01-22
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
方案一生成的数字人效果怎么样
生成数字人的效果因使用的工具和方法而异。以下是一些常见的情况: 在剪映中生成数字人: 打开“数字人”选项,选择免费且适合的形象,如“婉婉青春”,软件会播放其声音,可判断是否需要,点击“添加数字人”将其添加到视频中,剪映会根据提供的内容生成对应音视频并添加到轨道中。左下角会提示渲染完成时间,可点击预览按钮查看效果。 腾讯的 MimicMotion 项目: 效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。其优化包括基于置信度的姿态引导机制确保视频连贯流畅、基于姿态置信度的区域损失放大技术减少图像扭曲变形、创新的渐进式融合策略实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion 节点地址:https://github.com/AIFSH/ComfyUIMimicMotion 此外,还有适合小白用户的开源数字人工具,如: 特点:一键安装包,无需配置环境,简单易用。 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub: 官网:
2025-01-21
我想组织一个团队,完成属于自己的一套数字人制作技术
以下是组织一个团队完成属于自己的一套数字人制作技术的相关内容: 方案一:剪映数字人“个性化“—无限免费私模数字人 1. 准备谷歌账号(可在淘宝或“”购买)。 2. 第一步:打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击 open colab 进入程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。 3. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 4. 第三步:等待专属数字人视频出炉。 方案二:借助开源社区力量构建高质量的 AI 数字人 1. 推荐借助开源社区的像 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流模型供应商、工具及算法实现等。 2. 可通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。 在开源项目中,使用 dify 框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,实现相对复杂功能,如知识库搭建、工具使用等,无需编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于此可将数字人的语音识别和语音生成都交由 Dify 控制,低门槛做出高度定制化的数字人。具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 若有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。 数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,能保持更好的扩展。 注意事项: 1. 使用 Dify 接口时,必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,可自行选择方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可根据个人喜好添加。 制作数字人的工具: 1. HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2025-01-21