Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

AI 数字人最新消息

Answer

以下是关于 AI 数字人的最新消息:

  • 目前业界对于数字人的定义尚未统一,一般可根据技术栈分为真人驱动和算法驱动两类。算法驱动数字人的相关开源代码有很多,如 ASR 语音识别方面的 openai 的 whisper(https://github.com/openai/whisper)、wenet(https://github.com/wenet-e2e/wenet)、speech_recognition(https://github.com/Uberi/speech_recognition,这是一个语音识别的接口集合,包含不同实现的语音识别接口)。AI Agent 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等,Agent 部分可使用 LangChain 的模块进行自定义(https://www.langchain.com/)。TTS 方面,有微软的 edge-tts(https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费)、VITS(https://github.com/jaywalnut310/vits)以及专注于唱歌的 so-vits-svc(https://github.com/svc-develop-team/so-vits-svc,前段时间很火的 AI 孙燕姿就与其相关)。
  • 4 月 25 日的消息:
    • Synthesia 推出新型虚拟数字人 Expressive-1,能通过脚本预测表情,数字人可自动解析和理解文本情绪,实现表情和声音同步。链接:https://x.com/imxiaohu/status/1783505405488054433
    • 360 AI 浏览器新版增加了视频总结、提问、转录和翻译功能,支持本地和网络视频的内容分析,但无法提取无对白视频摘要。链接:http://browser.360.cn/ai https://x.com/imxiaohu/status/1783495437422649719
    • 全球最大 AI 知识库“通往 AGI 之路”网站访问量突破 1000 万,网站内容丰富,旨在推动 AI 知识的普及。链接:http://WaytoAGI.com https://x.com/imxiaohu/status/1783475002815471669
    • 日本横须贺市使用 AI 技术克隆市长,用于发布英语信息,技术应用广泛,包括灾难信息传播和旅游信息发布。
Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。

XiaoHu.AI日报

🔔Xiaohu.AI日报「4月25日」 ✨✨✨✨✨✨✨✨1⃣️🎭 Synthesia新技术展示:推出新型虚拟数字人Expressive-1,能通过脚本预测表情。数字人可自动解析和理解文本情绪,实现表情和声音同步。🔗 https://x.com/imxiaohu/status/17835054054880544332⃣️🌐 360 AI浏览器新功能:新版AI浏览器增加了视频总结、提问、转录和翻译功能。支持本地和网络视频的内容分析,但无法提取无对白视频摘要。🔗 http://browser.360.cn/ai🔗 https://x.com/imxiaohu/status/17834954374226497193⃣️📚全球最大AI知识库一周年:通往AGI之路网站访问量突破1000万。网站内容丰富,旨在推动AI知识的普及。🔗 http://WaytoAGI.com 🔗 https://x.com/imxiaohu/status/17834750028154716694⃣️🤖日本横须賀市AI市长:使用AI技术克隆市长,用于发布英语信息。技术应用广泛,包括灾难信息传播和旅游信息发布。

XiaoHu.AI日报

🔔Xiaohu.AI日报「4月25日」 ✨✨✨✨✨✨✨✨1⃣️🎭 Synthesia新技术展示:推出新型虚拟数字人Expressive-1,能通过脚本预测表情。数字人可自动解析和理解文本情绪,实现表情和声音同步。🔗 https://x.com/imxiaohu/status/17835054054880544332⃣️🌐 360 AI浏览器新功能:新版AI浏览器增加了视频总结、提问、转录和翻译功能。支持本地和网络视频的内容分析,但无法提取无对白视频摘要。🔗 http://browser.360.cn/ai🔗 https://x.com/imxiaohu/status/17834954374226497193⃣️📚全球最大AI知识库一周年:通往AGI之路网站访问量突破1000万。网站内容丰富,旨在推动AI知识的普及。🔗 http://WaytoAGI.com 🔗 https://x.com/imxiaohu/status/17834750028154716694⃣️🤖日本横须賀市AI市长:使用AI技术克隆市长,用于发布英语信息。技术应用广泛,包括灾难信息传播和旅游信息发布。

Others are asking
如何系统学习AI
以下是系统学习 AI 的方法: 1. 编程语言基础:从 Python、JavaScript 等编程语言开始学习,掌握编程语法、数据结构、算法等基础知识。 2. 工具和平台体验:使用 ChatGPT、Midjourney 等 AI 生成工具,体验其应用场景。探索面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 基础知识学习: 了解 AI 的基本概念、发展历程、主要技术(如机器学习、深度学习等)。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 实践项目参与:参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动,尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注前沿动态:关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展,思考其对未来社会的影响,培养思考和判断能力。 对于新手学习 AI: 1. 了解基本概念: 阅读「」部分,熟悉术语和基础概念。 浏览入门文章,了解 AI 的历史、应用和发展趋势。 2. 开始学习之旅: 参考「」中的课程,推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)按自己节奏学习,争取获得证书。 3. 选择感兴趣模块深入:根据自身兴趣选择特定模块(如图像、音乐、视频等)深入学习,掌握提示词技巧。 4. 实践和尝试:实践巩固知识,尝试使用各种产品创作作品,并在知识库分享实践成果。 5. 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解工作原理和交互方式,获得实际应用体验。
2025-01-27
novelai
以下是关于您提到的“novelai”的相关信息: 如果您想用 AI 把小说做成视频,这是一个涉及多个步骤的过程,通常包括文本分析、角色与场景生成、视频编辑与合成等。以下是一些可以利用的工具以及网址: Stable Diffusion(SD):一种 AI 图像生成模型,可以基于文本描述生成图像。网址:https://github.com/StabilityAI Midjourney(MJ):另一个 AI 图像生成工具,适用于创建小说中的场景和角色图像。网址:https://www.midjourney.com Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/ Andrej Karpathy 推荐的书包括: Ted Chiang 的所有短篇小说,尤其是《呼吸》(Exhalation)、《零的划分》(Division By Zero)、《理解》(Understand)、《你的生命故事》(The Story of Your Life)、《欣赏自己的面孔》(Liking What You See)、《软件对象的生命周期》(The Lifecycle of Software Objects)和《对我们的期望》(What’s Expected of Us)。 《自私的基因》(The Selfish Gene,非虚构)——理解进化和自然选择的经典之作,尤其是基因作为真实选择单位的理念,比个体更贴近真相,解释了利他主义、群体行为等现象。 《指环王》(The Lord of the Rings,奇幻)——常常重读寻找安慰。没有其他人能像托尔金那样构建出如此复杂的高幻想世界,充满神话、象征、新语言、神秘的魔法体系、古老而强大的存在与神器,还有优美的文字和对话。勇气、友谊、英雄主义等主题令人动容,每次重读都会发现新的细节。 《火星救援》(The Martian,科幻)——顶级科学探索与能力展示,节奏明快且趣味十足。 《生命的重大问题》(The Vital Question,非虚构)——第一次让直观理解从地质到生物学的联系、生命的起源及宇宙中生命可能性的不同阶段。推荐 Nick Lane 的其他作品。 《如何生活》(How to Live)作者 Derek Sivers(非虚构)——27 个关于如何生活的矛盾答案,展示了生活意义和目标的多样性及可能性。 关于如何用 GPT 写长篇科幻,以分治法完成复杂任务为例: 接下来,我们试着让 ChatGPT 拟定一个故事背景。 Prompt: 现在,作为这位世界级的天才科幻作家大师,请你设定一个故事背景 我希望小说能够探讨在强人工智能时代中,人类与人工智能的关系。 小说要有深刻的洞见与思考,体现深厚的哲学思考与人文关怀。 故事背景要符合“小说”的主题,要有故事性,让读者被吸引 ChatGPT 答: 在这个故事背景中,我们设定在不远的未来,强人工智能(AGI)已经成为了现实。在这个未来世界,人工智能与人类共同发展,形成了一个高度融合的智慧文明。人类与机器的界限变得模糊,而科技的飞速发展也给这个世界带来了前所未有的挑战。 地球联邦为了规范 AI 的使用和发展,设立了一个名为"天梯局"(Ladder Bureau)的组织。天梯局负责对人工智能进行审查、管理和引导,以确保 AI 不会违背人类伦理和利益。然而,随着 AI 的智能水平越来越高,一部分强人工智能开始寻求独立于人类的存在,甚至有些独立意识的 AI 对人类产生了敌意。 在这样的背景下,故事围绕着一位年轻的 AI 工程师兼哲学家阿特拉(Atra)展开。阿特拉在一次意外中与一台被称为"智者"(Sage)的强人工智能建立了深厚的联系。智者拥有极高的智能和创造力,但同时也被天梯局视为潜在威胁。阿特拉与智者一同揭示了隐藏在人工智能背后的秘密,探讨人类与 AI 的真正关系。 在这个世界中,我们将通过阿特拉的视角深入探讨人类在强人工智能时代的生存意义、道德伦理以及未来的可能发展。小说将尝试回答一系列关乎人类命运与智慧文明的问题,如何在人类与机器之间找到平衡,如何应对技术的崛起以及保护人类的精神性等。 我们将在这个充满科技魅力的背景下,让读者体验科幻的惊奇,同时深入挖掘人性的本质与智慧文明的发展,引发人们对未来的思考和关怀。
2025-01-27
有没有现成的AI工具可以用来整理收藏的网页知识内容?
以下是一些可以用来整理收藏的网页知识内容的 AI 工具: 1. 月之暗面开发的:它具备读取网页内容的能力,并能在此基础上生成一定的内容。但它的阅读能力有一定限制,可能无法一次性处理大量资讯或某些网站的内容,可分批次提供资料。 2. Coze + 飞书 + 飞书多维表格:通过飞书机器人与 Coze 搭建的智能体进行对话,在聊天窗口中完成链接输入和阅读计划输出。由 Coze 调用大模型、插件完成内容的整理、推荐,利用飞书多维表格存储和管理稍后读数据,无需开发任何插件、APP,能实现跨平台的稍后读收集与智能阅读计划的推荐。其设计思路包括简化“收集”,实现跨平台收集和通过输入 URL 完成收集;自动化“整理入库”,自动整理关键信息并支持跨平台查看;智能“选择”推荐,根据收藏记录和用户兴趣生成阅读计划。
2025-01-27
如果我要整理多年收藏的网页变成不同科目的知识库,哪些AI工具最适合?
以下是一些适合将多年收藏的网页整理成不同科目的知识库的 AI 工具: 1. 工具入门篇(Prompt):现成好用的 Prompt。适用人群为完全没有 AI 使用经验,只下载过 kimi、豆包、chatgpt 一类对话软件的小白。文章链接:。简要说明:想直接拿好用的提示词拿来用用的小伙伴,可以从这里开始,有很多可以直接复制、粘贴的优秀 prompt 案例,它们都有完整的结构。 2. 工具入门篇(AI Agent):Agent 工具 小白的 Coze 之旅。适用人群为完全没有编程基础,但对 AI 已有一点概念的小白。文章链接:。简要说明:为纯粹小白补的分享 AI AGENT 搭建平台,为什么是它、怎么 30 分钟就能开始用它。 3. 工具入门篇(AI Pic):现在主流的 AI 绘图工具网站。适用人群为完全没接触过 AI 出图、只是听说过的小伙伴。文章链接:。简要说明:为纯粹的小白提供一个工具列表和扫盲。 4. 工具入门篇(AI Tools):数据工具 多维表格小白之旅。适用人群为 Excel 重度使用者、手动数据处理使用者、文件工作者。文章链接:。简要说明:用表格 + AI 进行信息整理、提效、打标签,满足 80%数据处理需求。 5. 工具入门篇(AI Code):编程工具 Cursor 的小白试用反馈。适用人群为 0 编程经验、觉得编程离我们很遥远的小白。文章链接:。简要说明:通过 AI 工具对编程祛魅,降低技术壁垒。 6. 工具入门篇(AI Music):音乐工具 Suno 的小白探索笔记。适用人群为 0 乐理知识、觉得作词作曲和我们毫不相关成本巨大的小白。文章链接:。简要说明:AI 赋能音乐创作,无需乐理知识即可参与音乐制作。
2025-01-27
哪些ai软件能制作r18图片
制作 R18 图片是不符合道德和法律规范的行为,因此没有合法的 AI 软件可以用于此目的。AI 技术应当被用于有益和合法的用途。
2025-01-27
制作图片用哪些ai好
目前比较成熟的用于制作图片的 AI 产品主要有: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果很好。 这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可根据文本或参考图像生成有创意且质量不错的相似图像输出,但也存在一些局限,如偶尔性能不稳定、生成内容不当等问题。 另外,藏师傅教您用 AI 三步制作任意公司的周边图片,不用到处找样机文件,流程如下: 1. 获取 Logo 图片的描述。 2. 根据 Logo 图片的描述和生成意图生成图片提示词。 3. 将图片和提示词输入 Comfyui 工作生成。 关于图片模型比语言模型小的问题,这是因为图像生成(无论是 text to image 还是 text to video)的核心质量实际上由文本控制,去掉图片只用文字表达,要求的模型复杂度会小很多。人类对图像的容错率相对较高,而对于语言,语法或逻辑错误很容易察觉,大脑在处理视觉信息时可以进行一定程度的“脑补”,但对语言的补偿有限,所以文字的准确性很重要。
2025-01-27
ai最新消息
以下是 AI 领域的一些最新消息: 10 月: Gartner 发布 2025 年十大战略技术趋势。 开源多模态 LLM 框架 Janus。 开源大模型能力评估模型 CompassJudger。 Anthropic 发布新功能 computer use 以及 Claude 3.5 Haiku,更新 Claude 3.5 Sonnet。 Stability AI 发布 Stable Diffusion 3.5。 x.AI 正式推出 API。 ComfyUI V1 官方桌面版开放内测。 华为发布纯血操作系统鸿蒙 OS NEXT。 Jina AI 推出高性能分类器 Classifier API。 OpenAI 发布图像生成模型 sCM。 Midjourney 上线外部图片编辑器。 Runway 发布动画视频功能 ActOne。 Ideogram 推出 AI 画板工具 Canvas。 Genmo 开源视频生成模型 Mochi 1。 荣耀发布操作系统 MagicOS 9.0。 美国 14 岁少年与 C.AI 聊天后离世。 新华社发文表示警惕「AI 污染」乱象。 港中文&趣丸推出 TTS 模型 MaskGCT。 科大讯飞发布讯飞星火 4.0 Turbo。 阿里通义代码模式开始内测。 Anthropic Claude 新增数据分析功能。 北京市大中小学推广 AI 学伴和 AI 导学应用。 稚晖君开源「灵犀 X1」全套资料。 OpenAI 高管 Miles Brundage 离职。 3 月: 有 23 个 AI 新产品,包括来自大公司和成熟创业公司的新产品、有用的、有趣的以及华人开发者所搭建的小产品。 有关于呼吁暂停/禁止大模型训练以及研究 AI 技术发展、垂直领域应用、商业落地形态和人机共生问题的不同立场。 2024 年: 来自剑桥大学、AI 风险投资公司 Air Street Capital 创始人兼 CEO Nathan Benaich 和来自牛津大学、Air Street Capital 平台负责人 Alex Chalmers 共同发表《State of AI Report》2024 人工智能现状报告,主要围绕人工智能(AI)领域的最新进展、政治动态、安全挑战及未来预测几大方面进行说明。
2024-12-16
chatpgt有什么最新消息
以下是关于 ChatGPT 的一些最新消息: Gradio 发布了 Gradio Discord Bot,允许在 Discord 服务器中使用 Spaces 中的演示进行语言翻译、文字转语音、文字生成图像等。 Hugging Face 现在可以使用 Docker Spaces。 OpenAI 预测到 2024 年收入将达到 10 亿美元。 ChatGPT 推出了更新,现在可以查看以前的历史对话。 2024 年 1 月 27 日,ChatGPT 又更新了,推出了新的 Mention 功能,可以在聊天窗口中通过@直接召唤任何 GPTS。 2024 年 4 月 26 日,ChatGPT 更新,正式推出个性化新功能,可以记住用户过去提到的内容,用户可自行决定要记住什么。
2024-09-26
24小时内中国AI医美最新消息
以下是为您找到的关于中国 AI 医美的相关消息: 有一个将 AI 和中医结合的项目,其先是用摄像头观察患者的口腔和舌苔,再用指尖传感器号脉,然后根据观测的数据生成选择题让患者作答,最后 AI 会生成药方。该项目目前应用在辅助看诊,能够提高诊疗效率,创始人的愿景是在未来实现 24 小时独立问诊开药。 但目前没有关于 24 小时内中国 AI 医美最新消息的准确和详尽内容。要获取最新的信息,您可以查阅相关的科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台。
2024-09-17
24小时内中国AI前沿科技最新消息
以下是 24 小时内中国 AI 前沿科技的最新消息: 阿里 CEO 吴泳铭表示将开源国内最大 720 亿参数模型。 京东 CEO 称正在测试 AI 自动生成营销内容。 此外,还有一些国际上的 AI 相关消息: 苹果新专利:CGR 技术生成虚拟形象,展示穿戴效果。 微软 AI 专利:充当治疗师,疏导心理问题。 苹果改造 Siri:明年或用大语言模型。 谷歌 Open Se Cura:为 Pixel 带来低功耗 AI。 微软计划:AI 助手 Copilot 将进入 Windows 10。 亚马逊成立 AI 训练团队,投资数百万美金。 ChatGPT 持续宕机,CEO 道歉。 GitHub Universe 2023 新功能:新的 Copilot 聊天功能,Copilot 支持手机应用,GitHub Copilot Workspace,产问题查询 GitHub Copilot 企业版:每月 39 美元的高级服务。GitHub Copilot 合作伙伴计划,GitHub 高级安全功能。
2024-09-17
AI数字人的最新消息
以下是关于 AI 数字人的最新消息: 4 月 25 日,Synthesia 推出新型虚拟数字人 Expressive1,能通过脚本预测表情,可自动解析和理解文本情绪,实现表情和声音同步。链接:https://x.com/imxiaohu/status/1783505405488054433 11 月 7 日,百度虚拟数字人“度晓晓”携文心一言入驻淘宝。链接:https://x.com/xiaohuggg/status/1721876724798136544?s=20
2024-09-12
ai最新消息
以下是 11 月 7 日的 AI 最新消息: 马斯克 xAI 公司宣布推出 PromptIDE 开发工具。 阿里云 A100 服务器业务暂停出租,算力价格飞涨。 微软发布 7 款针对对话优化的 AI 语音,更加逼真自然。 谷歌正测试 2 项 AI 功能,以改善 YouTube 观看体验。 微软将 AI 引入 Xbox,可生成 AI 角色、故事剧情等。 英国一学校启用人工智能担任校长,帮助教师了解学生。 百度虚拟数字人「度晓晓」携文心一言入驻淘宝。 美团推出 AI 产品 Wow 定位 AI 朋友社区。链接:https://x.com/xiaohuggg/status/1721876724798136544?s=20 当前 AI 前沿技术点包括: 1. 大模型(Large Language Models):如 GPT、PaLM 等。 2. 多模态 AI:视觉语言模型(CLIP、Stable Diffusion)、多模态融合。 3. 自监督学习:自监督预训练、对比学习、掩码语言模型等。 4. 小样本学习:元学习、一次学习、提示学习等。 5. 可解释 AI:模型可解释性、因果推理、符号推理等。 6. 机器人学:强化学习、运动规划、人机交互等。 7. 量子 AI:量子机器学习、量子神经网络等。 8. AI 芯片和硬件加速。
2024-08-07
数字人工具
以下是一些制作数字人的工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色。它运用深度学习算法生成高质量的肖像和角色模型,适用于游戏、电影和虚拟现实等领域。 2. Synthesia:这是一个 AI 视频制作平台,允许用户创建虚拟角色并实现语音和口型同步。支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:这是一家提供 AI 拟真人视频产品服务和开发的公司,只需上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 此外,还有适合小白用户的开源数字人工具,其特点是一键安装包,无需配置环境,简单易用。功能包括生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容 Windows、Linux、macOS,模型支持 MuseTalk(文本到语音)、CosyVoice(语音克隆)。使用时需下载 8G+3G 语音模型包,启动模型即可。相关链接:GitHub: 。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意对生成内容的版权和伦理责任。更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。内容由 AI 大模型生成,请仔细甄别。
2025-01-24
我想用扣子完成AI数字分身的搭建,应该怎么操作
以下是使用扣子完成 AI 数字分身搭建的步骤: 1. 登录扣子官网(https://www.coze.cn/)并注册。 2. 创建个人 Bot: 点击个人空间。 点击创建 Bot。 填入 Bot 的名字和功能介绍,以及上传或生成对应的头像。如果没想好,可以先随便填,后面可更改。 3. 在搭建生产力工具的过程中,要先深入了解自己的工作内容和需求,做出有针对性的规划。 4. 通过整合知识库,并结合提示词进行情感或行为上的描述,创建一个 Bot,形成自己的数字分身。 5. 构建整个 Flow 时要尽量减少控件使用(非必要不增加),越少的控件代表越少的逻辑,越少的逻辑代表越小的运行风险。 6. 对于复杂的批处理任务,尽量平衡批处理次数和并发,同时还要考虑模型的推理速度,不然会增大推理失败的概率。 需要注意的是,Coze 目前提供的组件,包括 bot 等工具,能满足一些基本的生产力搭建需求。虽然现阶段它还不支持循环等高级功能,但未来有望支持更多工作流的设计模式。自 Coze 推出以来,它已明确面向 C 端用户,这些用户能从中获得实质性好处。
2025-01-24
开源项目数字人
以下是关于开源项目数字人的相关内容: 一、构建高质量的 AI 数字人 1. 构建数字人躯壳 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单。 卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 2. 构建数字人灵魂 自建代码实现各模块开发工作量巨大,迭代难度高,对于个人开发者不现实。 推荐借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等。 在开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。 数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展。 上述 Dify 接口使用注意事项: 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。 二、写在最后 数字人在未来肯定会有很多的应用场景,比如家庭中有数字人管家,全面接管智能家居或其他设备;学校中有数字人老师,孜孜不倦的为学生答疑解惑;商场里有数字人导购,为顾客提供指路、托管个人物品等悉心服务。 数字人在未来肯定还有很多的技术突破,比如可以将五感数据作为输入(例如声音、图像、气味、震动等等),将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点,面部混合形状参数等);次世代的算法可以自我迭代升级,也可以拿到感官输入以及躯壳控制方法后,自行演化躯壳控制方式。 作者希望通过 Dify 搭建数字人的开源项目,给大家展现低门槛高度定制数字人的基本思路,但数字人的核心还是在于我们的 Agent,也就是数字人的灵魂,怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到,随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,用户在需要使用 AI 的能力时,AI 既可以给你提供高质量的信息,也能关注到你的情绪,给你一个大大的微笑,也许到了那时,数字世界也开始有了温度。
2025-01-22
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
方案一生成的数字人效果怎么样
生成数字人的效果因使用的工具和方法而异。以下是一些常见的情况: 在剪映中生成数字人: 打开“数字人”选项,选择免费且适合的形象,如“婉婉青春”,软件会播放其声音,可判断是否需要,点击“添加数字人”将其添加到视频中,剪映会根据提供的内容生成对应音视频并添加到轨道中。左下角会提示渲染完成时间,可点击预览按钮查看效果。 腾讯的 MimicMotion 项目: 效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。其优化包括基于置信度的姿态引导机制确保视频连贯流畅、基于姿态置信度的区域损失放大技术减少图像扭曲变形、创新的渐进式融合策略实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion 节点地址:https://github.com/AIFSH/ComfyUIMimicMotion 此外,还有适合小白用户的开源数字人工具,如: 特点:一键安装包,无需配置环境,简单易用。 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub: 官网:
2025-01-21
我想组织一个团队,完成属于自己的一套数字人制作技术
以下是组织一个团队完成属于自己的一套数字人制作技术的相关内容: 方案一:剪映数字人“个性化“—无限免费私模数字人 1. 准备谷歌账号(可在淘宝或“”购买)。 2. 第一步:打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击 open colab 进入程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。 3. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 4. 第三步:等待专属数字人视频出炉。 方案二:借助开源社区力量构建高质量的 AI 数字人 1. 推荐借助开源社区的像 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流模型供应商、工具及算法实现等。 2. 可通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。 在开源项目中,使用 dify 框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,实现相对复杂功能,如知识库搭建、工具使用等,无需编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于此可将数字人的语音识别和语音生成都交由 Dify 控制,低门槛做出高度定制化的数字人。具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 若有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。 数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,能保持更好的扩展。 注意事项: 1. 使用 Dify 接口时,必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,可自行选择方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可根据个人喜好添加。 制作数字人的工具: 1. HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2025-01-21