Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

ai数字人怎么生成

Answer

生成 AI 数字人主要有以下步骤:

  1. 在剪映中生成数字人:
    • 打开剪映右侧窗口顶部的“数字人”选项,选取免费且适合的数字人形象,如“婉婉-青春”。
    • 软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。
  2. 增加背景图片:
    • 删除先前导入的文本内容,因为视频音频已包含文字。
    • 点击左上角“媒体”菜单并“导入”,选择本地图片上传,如一张书架图片,点击图片右下角加号添加到视频轨道(会覆盖数字人)。
    • 拖动轨道最右侧竖线使图片与视频对齐,选中轨道,拖动图片角放大到合适尺寸,并将数字人拖动到合适位置。
  3. 增加字幕:
    • 点击文本-智能字幕-识别字幕,点击开始识别,软件会自动将文字智能分段形成字幕。
  4. 算法驱动的数字人实现流程:
    • 核心算法包括 ASR(语音识别),能将用户音频数据转化为文字,便于数字人理解和生成回应。
    • AI Agent(人工智能体)充当数字人大脑,可接入大语言模型,拥有记忆模块等使其更真实。
    • TTS(文字转语音)将数字人依靠 LLM 生成的文字输出转换为语音。

完成上述步骤后,点击右上角“导出”按钮导出视频备用。若希望数字人换脸,则需使用其他工具。

Content generated by AI large model, please carefully verify (powered by aily)

References

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

3.1生成数字人在剪映右侧窗口顶部,我们打开“数字人”选项,选取一位免费的、适合的数字人形象,这里我选择“婉婉-青春”。当你选择一个数字人形象时,软件会马上播放出该数字人的声音。你可以判断是否是你需要的,点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容,来生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮,查看生成的数字人效果。3.2增加背景图片接下来,可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道,或者点击软件中间文字内容,按删除键删去文字:为了让视频更美观,我们为视频增加背景图片。当然你可以增加多个背景图片,为简化演示,这里增加1张图片。点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传:我选择一张书架图片上传,然后像添加文字内容一样,点击图片右下角的加号,将这个图片添加到视频的轨道上(会覆盖数字人):此时,书架图片就会在视频轨道的下面,添加一条新轨道:为了让图片在整个视频播放的时候都显示,可以点击这个轨道最右侧的竖线,向右拖拽,直到视频的最后,也就是和视频对齐:此时,背景图片所在的轨道是选中状态。如果没选中,鼠标点击一下这个规定即可。在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置:

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

3.3增加字幕点击文本-智能字幕-识别字幕,点击开始识别:软件会自动将文字智能分段并形成字幕:至此,数字人视频就完成了。点击右上角的“导出”按钮,导出视频以作备用。如果你希望数字换成自己希望的面孔,比如这个:就需要用另一个工具来进行换脸了。

AI 数字人-定义数字世界中的你

这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。

Others are asking
ai在线课程
以下是为您提供的关于 AI 在线课程的相关信息: 新手学习 AI 的步骤: 1. 了解 AI 基本概念:建议阅读「」部分,熟悉 AI 的术语和基础概念,包括主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。同时浏览入门文章,了解 AI 的历史、当前应用和未来发展趋势。 2. 开始 AI 学习之旅:在「」中,能找到为初学者设计的课程,特别推荐李宏毅老师的课程。您还可以通过在线教育平台(如 Coursera、edX、Udacity)按照自己的节奏学习,并可能获得证书。 3. 选择感兴趣的模块深入学习:AI 领域广泛,比如图像、音乐、视频等,您可根据兴趣选择特定模块深入学习,同时掌握提示词技巧。 4. 实践和尝试:理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。知识库中有很多实践后的作品和文章分享。 5. 体验 AI 产品:与如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式。 推荐的“野菩萨”AI 课程: 1. 预习周课程:包括 AI 绘画电脑配置要求、高效 AIGC 创意者的数字人工具包、SD 插件安装方法、画静为动的 AIGC 视频制作讲解等。 2. 基础操作课:涵盖 AI 绘画通识课、AI 摄影虚拟的真实、AI 电影 穿越的大门等内容。 3. 核心范式课程:涉及词汇的纸牌屋、核心范式应用、控制随机性等方面。 4. SD WebUi 体系课程:包括 SD 基础部署、SD 文生图、图生图、局部重绘等。 5. ChatGPT 体系课程:有 ChatGPT 基础、核心 文风、格式、思维模型等内容。 6. ComfyUI 与 AI 动画课程:包含部署和基本概念、基础工作流搭建、动画工作流搭建等。 7. 应对 SORA 的视听语言课程:涉及通识 欢迎参加电影的葬礼、影像赏析、基础戏剧影视文学等。 免费获取课程的机会:参与 video battle,获胜者可获得课程。冠军奖励 4980 课程一份,亚军奖励 3980 课程一份,季军奖励 1980 课程一份,入围奖励 598 野神殿门票一张。 “通往 AGI 之路知识库”中的课程: 1. 推荐 B 站 up 主 Nally 的课程,免费且每节 15 分钟。 2. 二十四节气相关教程和关键词已开源,可直接复制使用。 3. 14、15 号左右白马老师和麦菊老师将带大家用 AI 做生图、毛毡字、光影字、机甲字等。16 号晚上中老师将带大家动手操作炼丹。 希望以上信息对您有所帮助,祝您在 AI 学习的道路上不断进步!
2025-01-23
怎么用AI提高团队工作效率,贸易类
以下是一些利用 AI 提高贸易类团队工作效率的方法: 1. 利用 AI“词生卡”技术:将抽象的文字描述转化为直观的逻辑图表和流程图,帮助团队更好地理解和执行复杂任务。团队成员可以通过“词生卡”方式自定义活动海报、商务名片、简历,也可以用于日报、月报等介绍工作进度,实现文图双输出,提高信息传导效率,并为创新思维提供新工具。 2. 参考哈佛商学院的研究:在工作中使用 AI 可以带来工作效率的显著改善。使用 AI 的被测试者比未使用者平均多完成 12.2%的任务,完成速度提高 25.1%,结果质量提高 40%。同时要注意,类似 GPT4 这样的模型有能力边界,过于依赖可能适得其反。能力较弱的被测试者提升较大,高级人才和低级人才的差距会被拉平。 3. 采用合适的协作方式:如“半人马”模式,强调人与 AI 紧密结合但各司其职,人类主导流程,根据任务性质调配资源;“机械人”模式,人与 AI 高度融合,在细节上循环迭代优化,最终实现人机一体化。 总之,合理利用 AI 技术和选择合适的协作方式,能够有效提高贸易类团队的工作效率。
2025-01-23
langchain开发手册
LangChain 是专注于大模型应用开发的平台,提供一系列组件和工具助您轻松构建 RAG 应用。 组件包括: 1. 数据加载器(DocumentLoader):能从数据源加载数据并转为文档对象,文档包含 page_content(文本内容)和 metadata(元数据如标题、作者、日期等)。 2. 文本分割器(DocumentSplitter):将文档分割成多个小文档,方便后续检索和生成,因大模型输入窗口有限,短文本更易找相关信息。 3. 文本嵌入器(Embeddings):将文本转为高维向量的嵌入,用于衡量文本相似度以实现检索功能。 4. 向量存储器(VectorStore):存储和查询嵌入,常使用 Faiss 或 Annoy 等索引技术加速检索。 5. 检索器(Retriever):根据文本查询返回相关文档对象,常见实现是向量存储器检索器,利用向量存储器相似度搜索功能检索。 6. 聊天模型(ChatModel):基于大模型如 GPT3 实现文本生成,根据输入序列生成输出消息。 使用 LangChain 构建 RAG 应用的一般流程: 1. 加载数据:根据数据源类型选择合适的数据加载器,如网页可用 WebBaseLoader。 2. 分割文档:根据文本特点选择合适的文本分割器,如博客文章可用 RecursiveCharacterTextSplitter。 3. 转换和存储嵌入:选择合适的文本嵌入器和向量存储器,如 OpenAI 的嵌入模型和 Chroma 的向量存储器。 4. 创建检索器:使用向量存储器检索器,传递向量存储器和文本嵌入器对象创建。 5. 创建聊天模型:根据性能和成本选择,如 OpenAI 的 GPT3 模型。 以下是使用 LangChain 构建 RAG 应用的示例代码。
2025-01-23
给我写一段AI产品经理板块的介绍,一小段话,用于在公司内部的科技论坛上
在公司内部的科技论坛上,为您介绍 AI 产品经理板块: AI 产品经理可大致分为三个层级: 1. 入门级:能通过 WaytoAGI 等开源网站或课程了解 AI 概念,使用 AI 产品并动手实践应用搭建。 2. 研究级:有技术研究和商业化研究两条路径,能根据需求场景选择解决方案,或利用 Hugging face 等工具验证想法。 3. 落地应用级:有成功落地应用案例并产生商业化价值。 传统互联网 PM 也有类似的三个层级: 1. 负责功能模块与执行细节。 2. 负责整体系统与产品架构。 3. 熟悉行业竞争格局与商业运营策略。 对 AI 产品经理的要求是懂得技术框架,关注场景、痛点和价值。同时,为您列举一些岗位技能要求,如本科及以上学历,计算机科学等相关专业背景,熟悉多种 AI 工具的使用及原理,具备创新思维等。我们身边也有相关案例,如枫 share、行远等都是从事相关工作的产品经理。
2025-01-23
ai音乐
以下是一些与 AI 音乐相关的信息: 人工智能音频初创公司: (被 Apple 收购):音乐帮助品牌与受众建立更深层次的连接。 :下一代音乐制作人。 :由 AI 驱动的软件引擎,可以生成音乐,能对手势、动作、代码或其他声音作出反应。 :全球最大的音乐教育平台。 :用于创作歌曲和音频录制的应用程序。 :提供无缝录音室体验的一体化在线协作平台。 :专业音频、语音、声音和音乐的扩展服务。 :视频编辑的音频解决方案。 :由 AI 驱动的音乐工作室。 :通过直观的软件/硬件生态系统为音乐演奏者提供世界级声音的民主化访问。 :AI 音频插件和社区,弥合 AI 研究与创意之间的差距。 :为音乐人、制作人和内容创作者提供 AI 驱动的混音服务。 :为创作者提供的在线音乐软件,包括音乐母带处理、数字音乐发行、分期付款插件、免费样本包和协作工具。 AI 生成音乐的工具:是利用人工智能技术,特别是机器学习和深度学习算法,来创作、编排和生成音乐的软件平台。能够分析大量音乐数据,学习音乐的模式和结构,然后根据用户输入或特定指令创作出新的音乐作品。推荐的 AI 音乐产品有: :由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。 :是一款革命性的人工智能音乐生成工具,通过先进的深度学习技术,能将用户的输入转化为富有情感且高质量的音乐作品。 108 个舞蹈音乐提示词:每个提示精心制作,以有效地封装各种舞蹈音乐流派的具体特点和大气质量,同时确保适应不同的聆听环境。用这些来激发对完全遗漏的流派的描述。结合元素、流派、影响等,进一步深化舞蹈音乐的谱系。
2025-01-23
我想知道全世界最新的AI资讯
以下是为您提供的全世界最新的 AI 资讯: 2024 年 10 月 1 日:Notion 近期进行了重构更新,增强了内置 AI 功能,采用对话式交互,用户可通过聊天与 AI 进行工作安排,并能跨页面、跨应用调用素材。但写作辅助功能在复杂文本处理上存在局限。Notion 以出色的 UX 设计和社区支持在效率软件领域领先。 推荐 6 个精准的海外 AI 信息渠道,包括 TechURLs(科技媒体汇总)、Toolify.ai(AI 产品导航和排行榜)、SimilarWeb(数据分析工具)、A16Z(硅谷知名投资机构)等,适合对 AI 感兴趣的读者和行业从业者。 12 月 25 日: AI 绘画:Recraft AI 更新了 60 种新的图像风格,用户可生成和编辑插画、海报、产品周边等,每日有免费试用点数,允许商业使用。地址:https://www.recraft.ai/ AI 公文智能体:学习强国 x 百度 AI 推出的“学习强国公文助手”在文小言 APP 正式上线,可进行文汇检索、AI 公文书写、AI 公文润色等。使用方式:下载文小言 APP,找寻学习强国公文助手。 关于最新的国内大模型排名,可能会有变化。您可以查阅相关科技新闻网站、学术论坛或关注人工智能领域的社交媒体平台获取最新信息。在通往 AGI 之路的知识库里,会定期更新相关排名报告。但请注意内容由 AI 大模型生成,请仔细甄别。
2025-01-23
有没有歌词生成音乐的AI
以下是一些能够实现歌词生成音乐的 AI 工具: 1. 歌词爆改机@阶跃星辰繁星计划:这是一个微信小程序,可以把一首歌曲的歌词爆改成想要的版本,并生成专属音乐,UI 绝美。玩法链接:https://mp.weixin.qq.com/s?__biz=MzkyNzY0NDc4Nw==&mid=2247484386&idx=1&sn=a74db6692f4dd5735f66c47cb82fc5b9&scene=21wechat_redirect 2. LAIVE:这是一个利用 AI 技术一次性生成音乐、歌词、主唱等的创作平台。使用者可以选择自己喜欢的类型和情调,上传参考音源,AI 可以通过分析生成音乐。并且可以选择主唱和修改歌词,目前为开放测试阶段。链接:https://www.laive.io/ 输入促销代码 LAIVEcreator 可获得 50 代币(入口在个人资料),令牌有效期为输入代码后的 30 天,促销码失效日期为 4 月 17 日。
2025-01-23
AI生成PPT的流程
以下是 AI 生成 PPT 的流程: 1. 确定大纲: 可以让 GPT4 生成 PPT 大纲,但可能在理解题目和生成大纲上花费较多时间。例如,需要仔细思考题目要求,将题目抛给 GPT4 帮助理解,确定主题。 2. 导入大纲到工具生成 PPT: 以爱设计为例,其他工具操作方式大同小异,基于 Markdown 语法生成。 如使用 Process ON 工具: 网址:https://www.processon.com/ 输入大纲和要点:有两种方式,包括导入大纲和要点(手动复制或通过特定步骤导入),以及输入主题自动生成大纲和要求。 选择模版并生成 PPT:点击下载,选择导入格式为 PPT 文件,选择模版后再点击下载。若使用 Process ON 且没有会员,可在某宝买一天会员。 3. 优化整体结构: 按照公司要求,自行优化字体、图片等元素,删改内容以达到心理预期。 4. 手动修改细节: 例如修改字体、纠正事实性错误等。
2025-01-23
生成原型的AI工具
以下是一些用于生成原型的 AI 工具: 1. 即时设计(https://js.design/):可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 2. V0.dev(https://v0.dev/):Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix(https://wix.com/):用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 4. Dora(https://www.dora.run/):使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 目前用于产品原型设计的 AIGC 工具包括: 1. UIzard:利用 AI 技术生成用户界面的工具,可根据设计师提供的信息快速生成 UI 设计。 2. Figma:基于云的设计工具,提供自动布局和组件库,其社区开发的一些 AI 插件可用于增强设计流程。 3. Sketch:流行的矢量图形设计工具,其插件系统中的一些插件利用 AI 技术来辅助设计工作,例如自动生成设计元素等。 从 Artifacts 到 Cursor 的连续爆火,唤起了大模型的又一春。AI Native 的口号从未停止,虽然难以定义真正的 AI Native,但借助这些 AI 工具,任何人都能在短时间内将创意变为可交互的原型。当然,这些工具还不够完美,生成的代码可能需要调整,设计可能需要优化。但随着技术的不断进步,未来可能会有更多专门针对产品原型设计的 AIGC 工具出现,也许有一天,我们可以直接用自然语言描述一个完整的应用,AI 就能为我们构建出全功能的产品。
2025-01-22
如何用现有人的照片生成拜年短视频
以下是用现有人的照片生成拜年短视频的流程: 1. 拍摄训练的图片:先拍好所需图片。 2. 使用 EasyPhoto 开始训练:放入图片开始炼丹,等待显示“The training has been completed.”表示完成。 3. 训练好的 lora 用来推理:开始推理,注意推理使用的底图尽量选择和自己外形、头发相似的图片,因为除了面部,发型等也是关键。 4. 先用 Stable different 脸一个自己脸部的 Lora,然后生成各种不同风格的图片。 5. 配音。 6. 在 heygen 里面让图片口型和配音对上。 7. 后期剪辑。 8. 封面制作。 制作最后的拜年祝福语,希望以上工作流能对您有所帮助。
2025-01-22
文字生成图片的ai有哪些
以下是一些文字生成图片的 AI 工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计受到广泛欢迎,在创意设计人群中尤其流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 此外,在小学课堂的课程设计中,关于文字生成图片的部分,可先准备一些关键词,如“夜晚的未来城市风景,霓虹灯和飞行汽车”“超现实主义风景,漂浮的岛屿和瀑布云”等,输入 Mid Journey 生成图片并保存,用于课堂展示。同时让学生共创,每人说几个关键词,放入 Mid Journey 查看生成效果,也可展示事先用 SD 制作的作品。通过这些案例和互动,让学生理解 AI 绘图在创意增强、效率提升、降低技能门槛和探索新艺术形式方面的好处。
2025-01-21
图片生成视频的ai有哪些
以下是一些图片生成视频的 AI 工具: 1. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频。它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的相关网站可以查看:https://www.waytoagi.com/category/38 。 另外,使用快影(可灵)处理图片生成视频的步骤如下: 1. 打开快影(需要先通过内测申请),选择 AI 创作。 2. 选择 AI 生成视频。 3. 选择图生视频。 4. 上传处理好的图片,填写想要的互动动作和效果,然后点击生成视频。 5. 排队等待生成结束,点击下载。 以上工具均适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。
2025-01-21
开源项目数字人
以下是关于开源项目数字人的相关内容: 一、构建高质量的 AI 数字人 1. 构建数字人躯壳 建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。 开源数字人项目选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单。 卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 2. 构建数字人灵魂 自建代码实现各模块开发工作量巨大,迭代难度高,对于个人开发者不现实。 推荐借助开源社区的力量,如 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等。 在开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。 数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展。 上述 Dify 接口使用注意事项: 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。 二、写在最后 数字人在未来肯定会有很多的应用场景,比如家庭中有数字人管家,全面接管智能家居或其他设备;学校中有数字人老师,孜孜不倦的为学生答疑解惑;商场里有数字人导购,为顾客提供指路、托管个人物品等悉心服务。 数字人在未来肯定还有很多的技术突破,比如可以将五感数据作为输入(例如声音、图像、气味、震动等等),将所有可以控制躯壳的参数也作为输入(例如躯壳骨骼节点,面部混合形状参数等);次世代的算法可以自我迭代升级,也可以拿到感官输入以及躯壳控制方法后,自行演化躯壳控制方式。 作者希望通过 Dify 搭建数字人的开源项目,给大家展现低门槛高度定制数字人的基本思路,但数字人的核心还是在于我们的 Agent,也就是数字人的灵魂,怎样在 Dify 上面去编排专属自己的数字人灵魂是值得大家自己亲自体验的。真诚的希望看到,随着数字人的多模态能力接入、智能化水平升级、模型互动控制更精确,用户在需要使用 AI 的能力时,AI 既可以给你提供高质量的信息,也能关注到你的情绪,给你一个大大的微笑,也许到了那时,数字世界也开始有了温度。
2025-01-22
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
方案一生成的数字人效果怎么样
生成数字人的效果因使用的工具和方法而异。以下是一些常见的情况: 在剪映中生成数字人: 打开“数字人”选项,选择免费且适合的形象,如“婉婉青春”,软件会播放其声音,可判断是否需要,点击“添加数字人”将其添加到视频中,剪映会根据提供的内容生成对应音视频并添加到轨道中。左下角会提示渲染完成时间,可点击预览按钮查看效果。 腾讯的 MimicMotion 项目: 效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。其优化包括基于置信度的姿态引导机制确保视频连贯流畅、基于姿态置信度的区域损失放大技术减少图像扭曲变形、创新的渐进式融合策略实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion 节点地址:https://github.com/AIFSH/ComfyUIMimicMotion 此外,还有适合小白用户的开源数字人工具,如: 特点:一键安装包,无需配置环境,简单易用。 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。 系统兼容:支持 Windows、Linux、macOS。 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。 使用步骤:下载 8G+3G 语音模型包,启动模型即可。 GitHub: 官网:
2025-01-21
我想组织一个团队,完成属于自己的一套数字人制作技术
以下是组织一个团队完成属于自己的一套数字人制作技术的相关内容: 方案一:剪映数字人“个性化“—无限免费私模数字人 1. 准备谷歌账号(可在淘宝或“”购买)。 2. 第一步:打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击 open colab 进入程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。 3. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 4. 第三步:等待专属数字人视频出炉。 方案二:借助开源社区力量构建高质量的 AI 数字人 1. 推荐借助开源社区的像 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流模型供应商、工具及算法实现等。 2. 可通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。 在开源项目中,使用 dify 框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,实现相对复杂功能,如知识库搭建、工具使用等,无需编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于此可将数字人的语音识别和语音生成都交由 Dify 控制,低门槛做出高度定制化的数字人。具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 若有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。 数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,能保持更好的扩展。 注意事项: 1. 使用 Dify 接口时,必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,可自行选择方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可根据个人喜好添加。 制作数字人的工具: 1. HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2025-01-21
数字人
数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在生活各场景中常见,且随 AI 技术发展迎来应用爆发。目前业界对其无准确定义,一般按技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货,表现质量与手动建模精细度及动捕设备精密程度直接相关,不过视觉算法进步使无昂贵动捕设备时,通过摄像头捕捉人体骨骼和人脸关键点信息也能有不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,能创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,可创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 以下是一些包含数字人的节目单示例: 1. 节目“猜真人”:魔术互动类表演,2 个、8 个数字分身,猜哪个是真正的我,需求技术为 AI 数字人。 2. 节目“亲情的应用场景(逝者)”:女儿打扫房间扫到去世父亲二维码再次对话,涉及 AI 分身积累准备。 3. 节目“AI 转绘”:经典电影混剪,涉及短片素材、AI 转绘、Lora 等。 4. 节目“AI 贺岁”:晚会中场致谢,包括共创团队记录、新年祝福等。 5. 节目“打工人共情”:涉及 AI 素材、共情脚本、炫技视频剪辑等。
2025-01-20
数字人带货怎么做
数字人带货的相关内容如下: 1. 数字人直播盈利方式: 直接卖数字人工具软件,分为实时驱动和非实时驱动两类。实时驱动价格一年 4 6 万往上,非实时驱动一个月 600 元,效果差且市场价格混乱。 提供数字人运营服务,按直播间成交额抽佣。 2. 数字人直播卖货适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料,不适用于服装,因衣服建模成本高。 适用于虚拟商品,如门票、优惠券等。 不适用于促销场景,涉及主播话术、套路和调动直播间氛围能力等。 电商直播分达播跟店播,数字人直播效果最好的是店播,数据基本能保持跟真人一样。 3. 数字人直播的壁垒和未来市场格局: 时间拉长,技术上没壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 真正把客户服务好,能规模化扩张的公司更有价值。 有资源、有业务的大平台下场,可能会带来降维打击。 此外,还有关于数字人带货的具体操作案例: 1. 用 ChatGPT 生成短视频选题文案,表明身份、描述需求和回答要求,以美妆行业为例。 2. 用 ChatGPT 生产短视频文案,将需求与框架结合。 3. 生成虚拟数字人短视频: 打开网站 https://studio.did.com/editor 。 在右侧文字框输入 ChatGPT 生成的内容,选择想要的头像、不同的国家和声音。 点击右上角的 Create Video ,等待生成。生成后结合产品做讲解即可发布去做视频带货。 数字人的简介:数字人是运用数字技术创造出来的人,目前业界没有准确定义,一般根据技术栈不同分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业和直播带货,表现质量与手动建模精细程度及动捕设备精密程度直接相关,随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
2025-01-19