Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

方案一生成的数字人效果怎么样

Answer

生成数字人的效果因使用的工具和方法而异。以下是一些常见的情况:

在剪映中生成数字人:

  • 打开“数字人”选项,选择免费且适合的形象,如“婉婉-青春”,软件会播放其声音,可判断是否需要,点击“添加数字人”将其添加到视频中,剪映会根据提供的内容生成对应音视频并添加到轨道中。左下角会提示渲染完成时间,可点击预览按钮查看效果。

腾讯的 MimicMotion 项目:

  • 效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。其优化包括基于置信度的姿态引导机制确保视频连贯流畅、基于姿态置信度的区域损失放大技术减少图像扭曲变形、创新的渐进式融合策略实现任意长度视频生成。项目地址:https://github.com/tencent/MimicMotion 节点地址:https://github.com/AIFSH/ComfyUI-MimicMotion

此外,还有适合小白用户的开源数字人工具,如:

  • 特点:一键安装包,无需配置环境,简单易用。
  • 功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。
  • 系统兼容:支持 Windows、Linux、macOS。
  • 模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。
  • 使用步骤:下载 8G+3G 语音模型包,启动模型即可。
  • GitHub:https://github.com/modstart-lib/aigcpanel
  • 官网:https://aigcpanel.com
Content generated by AI large model, please carefully verify (powered by aily)

References

实战: 每个人都可以用10分钟轻松制作AI换脸、AI数字人视频的方法!

3.1生成数字人在剪映右侧窗口顶部,我们打开“数字人”选项,选取一位免费的、适合的数字人形象,这里我选择“婉婉-青春”。当你选择一个数字人形象时,软件会马上播放出该数字人的声音。你可以判断是否是你需要的,点击右下角的“添加数字人”,就会将选择的数字人添加到当前视频中。剪映App将会根据之前提供的内容,来生成对应音视频,并添加到当前视频文件的轨道中。左下角会提示你渲染何时完成。然后你可以点击预览按钮,查看生成的数字人效果。3.2增加背景图片接下来,可以直接删除先前导入的文本内容。这是因为视频中的音频中已经包含文字内容了。鼠标点击下方代表文字的轨道,或者点击软件中间文字内容,按删除键删去文字:为了让视频更美观,我们为视频增加背景图片。当然你可以增加多个背景图片,为简化演示,这里增加1张图片。点击左上角的“媒体”菜单,并点击“导入”按钮,来选择本地的一张图片上传:我选择一张书架图片上传,然后像添加文字内容一样,点击图片右下角的加号,将这个图片添加到视频的轨道上(会覆盖数字人):此时,书架图片就会在视频轨道的下面,添加一条新轨道:为了让图片在整个视频播放的时候都显示,可以点击这个轨道最右侧的竖线,向右拖拽,直到视频的最后,也就是和视频对齐:此时,背景图片所在的轨道是选中状态。如果没选中,鼠标点击一下这个规定即可。在显示区域,拖动背景图的一个角,将图片放大到适合的尺寸,比如覆盖视频窗口。并将数字人拖动到合适的位置:

Comfyui MimicMotion

腾讯发布的MimicMotion项目效果显著优于阿里,支持面部特征和唇形同步,不仅用于跳舞视频,也可应用于数字人。相较阿里的方案,MimicMotion的优化包括:1.基于置信度的姿态引导机制,确保生成视频更加连贯流畅。2.基于姿态置信度的区域损失放大技术,显著减少图像扭曲和变形。3.创新的渐进式融合策略,在可接受的计算资源消耗下,实现任意长度视频生成。项目地址https://github.com/tencent/MimicMotion节点地址https://github.com/AIFSH/ComfyUI-MimicMotion

XiaoHu.AI日报

🔔Xiaohu.AI日报「12月29日」✨✨✨✨✨✨✨✨1⃣️🛠️数字人工具推荐:开源且适合小白用户特点:一键安装包,无需配置环境,简单易用。功能:生成数字人视频,支持语音合成和声音克隆,操作界面中英文可选。系统兼容:支持Windows、Linux、macOS。模型支持:MuseTalk(文本到语音)、CosyVoice(语音克隆)。使用步骤:下载8G+3G语音模型包,启动模型即可。🔗GitHub:[https://github.com/modstart-lib/aigcpanel](https://github.com/modstart-lib/aigcpanel)🔗官网:[https://aigcpanel.com](https://aigcpanel.com)🔗[https://x.com/imxiaohu/status/1872852432549765195](https://x.com/imxiaohu/status/1872852432549765195)2⃣️🎥Google Veo 2:AI生成逼真的Vlog视频效果:生成的视频接近真实,几乎难以分辨。应用:适合创作和内容制作。🔗[https://x.com/imxiaohu/status/1872984285634019476](https://x.com/imxiaohu/status/1872984285634019476)

Others are asking
如何用现有人的照片生成拜年短视频
以下是用现有人的照片生成拜年短视频的流程: 1. 拍摄训练的图片:先拍好所需图片。 2. 使用 EasyPhoto 开始训练:放入图片开始炼丹,等待显示“The training has been completed.”表示完成。 3. 训练好的 lora 用来推理:开始推理,注意推理使用的底图尽量选择和自己外形、头发相似的图片,因为除了面部,发型等也是关键。 4. 先用 Stable different 脸一个自己脸部的 Lora,然后生成各种不同风格的图片。 5. 配音。 6. 在 heygen 里面让图片口型和配音对上。 7. 后期剪辑。 8. 封面制作。 制作最后的拜年祝福语,希望以上工作流能对您有所帮助。
2025-01-22
文字生成图片的ai有哪些
以下是一些文字生成图片的 AI 工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计受到广泛欢迎,在创意设计人群中尤其流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 此外,在小学课堂的课程设计中,关于文字生成图片的部分,可先准备一些关键词,如“夜晚的未来城市风景,霓虹灯和飞行汽车”“超现实主义风景,漂浮的岛屿和瀑布云”等,输入 Mid Journey 生成图片并保存,用于课堂展示。同时让学生共创,每人说几个关键词,放入 Mid Journey 查看生成效果,也可展示事先用 SD 制作的作品。通过这些案例和互动,让学生理解 AI 绘图在创意增强、效率提升、降低技能门槛和探索新艺术形式方面的好处。
2025-01-21
图片生成视频的ai有哪些
以下是一些图片生成视频的 AI 工具: 1. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频。它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的相关网站可以查看:https://www.waytoagi.com/category/38 。 另外,使用快影(可灵)处理图片生成视频的步骤如下: 1. 打开快影(需要先通过内测申请),选择 AI 创作。 2. 选择 AI 生成视频。 3. 选择图生视频。 4. 上传处理好的图片,填写想要的互动动作和效果,然后点击生成视频。 5. 排队等待生成结束,点击下载。 以上工具均适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。
2025-01-21
有哪些能够生成视频封面的ai
以下是一些能够生成视频封面的 AI 工具: 1. Pika:出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频,它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要注意是收费的。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 如果您想用 AI 把小说做成视频,可参考以下制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-01-21
有哪些能够本地部署的AI视频生成模型
以下是一些能够本地部署的 AI 视频生成模型: 1. Stable Video Diffusion 模型: 准备工作:手动下载相关内容,分别放到指定路径。 模型选择:点击下拉箭头选择不同模型版本,勾选 load Model。 视频创作:支持图生视频,图片来源可选择 Midjourney、Stable Diffusion 等生成的图片,上传到 SVD 进行视频生成,可调节左侧参数控制效果。 保存路径:生成的视频在 outputs 下。 2. LTXVideo 模型: 基于 2B 参数 DiT,能够以 768x512 分辨率生成 24 FPS 的视频,速度比观看还快。 专为 RTX 4090 等 GPU 优化,使用 bfloat16 精度,实现高效内存使用且不影响质量。 ComfyUI 现已支持该模型,用户只需下载模型文件并获取工作流即可在本地运行。 3. Sora 模型: 功能:文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率、视频长度和视频风格;具有故事板功能,允许用户通过时间线指导视频中的多个动作;提供混音和编辑功能,包括视频混音、延伸和剪辑、创建循环视频等;还有混合功能,可将两个视频场景合并成一个新的场景。 费用和订阅套餐:对于拥有 OpenAI Plus 或 Pro 账户的用户,使用包含在现有订阅中。OpenAI Plus 订阅每月 50 次视频生成次数,OpenAI Pro 订阅无限次慢速队列生成,500 次正常速度的视频生成次数。用户可根据需要选择更高分辨率的视频生成,但可能会减少每月使用次数。发布初期,某些地区(如欧洲和英国)可能会有延迟。
2025-01-21
能生成页面 UI 设计图的 AI 工具
以下是一些能生成页面 UI 设计图的 AI 工具: 1. Midjourney:如果想指定生成某个页面(如首页、登录页等),只需添加页面指令描述,如“landing page”“Profile Page”等。通过一系列操作,其产出的设计图视觉效果不错,适合在 APP 设计的初始阶段,如头脑风暴和风格探索中为设计师提供灵感和创意。但目前直接用于落地开发仍有距离。在 Midjourney 中生成 UI 设计图没有固定的 Prompt,可先使用指令模板“ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble”,将“类型”替换为产品的关键词描述(英文)。 2. 即时设计:https://js.design/ 这是一款可在线使用的“专业 UI 设计工具”,为设计师提供更加本土化的功能和服务,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 3. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面,基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 4. Wix:https://wix.com/ 这是一款用户友好的 AI 工具,无需编码知识即可轻松创建和自定义网站,提供广泛的模板和设计选择,以及移动优化和集成电子商务等功能,能帮助不同领域用户创建各种网站。 5. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画生成强大网站,支持文字转网站、生成式 3D 互动、高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-21
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
我想组织一个团队,完成属于自己的一套数字人制作技术
以下是组织一个团队完成属于自己的一套数字人制作技术的相关内容: 方案一:剪映数字人“个性化“—无限免费私模数字人 1. 准备谷歌账号(可在淘宝或“”购买)。 2. 第一步:打开谷歌浏览器,点击链接https://github.com/facefusion/facefusioncolab 并点击 open colab 进入程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”,无需安装和付费。点击红框对应的 URL 打开操作界面。 3. 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 4. 第三步:等待专属数字人视频出炉。 方案二:借助开源社区力量构建高质量的 AI 数字人 1. 推荐借助开源社区的像 dify、fastgpt 等成熟的高质量 AI 编排框架,它们有大量开源工作者维护,集成各种主流模型供应商、工具及算法实现等。 2. 可通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。 在开源项目中,使用 dify 框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,实现相对复杂功能,如知识库搭建、工具使用等,无需编码和重新部署工作。 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于此可将数字人的语音识别和语音生成都交由 Dify 控制,低门槛做出高度定制化的数字人。具体部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。 若有更高度定制的模型,也可在 Dify 中接入 XInference 等模型管理平台部署自己的模型。 数字人 GUI 工程中保留了 LLM、ASR、TTS、Agent 等多个模块,能保持更好的扩展。 注意事项: 1. 使用 Dify 接口时,必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,可自行选择方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可根据个人喜好添加。 制作数字人的工具: 1. HeyGen:AI 驱动的平台,可创建逼真的数字人脸和角色,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入要说的内容,平台提供的 AI 语音机器人将自动转换成语音,然后合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。请注意,这些工具的具体功能和可用性可能会变化,使用时请遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2025-01-21
ai数字人怎么生成
生成 AI 数字人主要有以下步骤: 1. 在剪映中生成数字人: 打开剪映右侧窗口顶部的“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。 软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,软件会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 2. 增加背景图片: 删除先前导入的文本内容,因为视频音频已包含文字。 点击左上角“媒体”菜单并“导入”,选择本地图片上传,如一张书架图片,点击图片右下角加号添加到视频轨道(会覆盖数字人)。 拖动轨道最右侧竖线使图片与视频对齐,选中轨道,拖动图片角放大到合适尺寸,并将数字人拖动到合适位置。 3. 增加字幕: 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段形成字幕。 4. 算法驱动的数字人实现流程: 核心算法包括 ASR(语音识别),能将用户音频数据转化为文字,便于数字人理解和生成回应。 AI Agent(人工智能体)充当数字人大脑,可接入大语言模型,拥有记忆模块等使其更真实。 TTS(文字转语音)将数字人依靠 LLM 生成的文字输出转换为语音。 完成上述步骤后,点击右上角“导出”按钮导出视频备用。若希望数字人换脸,则需使用其他工具。
2025-01-20
数字人
数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中的人型机器人般高度智能,但已在生活各场景中常见,且随 AI 技术发展迎来应用爆发。目前业界对其无准确定义,一般按技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货,表现质量与手动建模精细度及动捕设备精密程度直接相关,不过视觉算法进步使无昂贵动捕设备时,通过摄像头捕捉人体骨骼和人脸关键点信息也能有不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,能创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,可创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 以下是一些包含数字人的节目单示例: 1. 节目“猜真人”:魔术互动类表演,2 个、8 个数字分身,猜哪个是真正的我,需求技术为 AI 数字人。 2. 节目“亲情的应用场景(逝者)”:女儿打扫房间扫到去世父亲二维码再次对话,涉及 AI 分身积累准备。 3. 节目“AI 转绘”:经典电影混剪,涉及短片素材、AI 转绘、Lora 等。 4. 节目“AI 贺岁”:晚会中场致谢,包括共创团队记录、新年祝福等。 5. 节目“打工人共情”:涉及 AI 素材、共情脚本、炫技视频剪辑等。
2025-01-20
数字人带货怎么做
数字人带货的相关内容如下: 1. 数字人直播盈利方式: 直接卖数字人工具软件,分为实时驱动和非实时驱动两类。实时驱动价格一年 4 6 万往上,非实时驱动一个月 600 元,效果差且市场价格混乱。 提供数字人运营服务,按直播间成交额抽佣。 2. 数字人直播卖货适用品类和场景: 适用于不需要强展示的商品,如品牌食品饮料,不适用于服装,因衣服建模成本高。 适用于虚拟商品,如门票、优惠券等。 不适用于促销场景,涉及主播话术、套路和调动直播间氛围能力等。 电商直播分达播跟店播,数字人直播效果最好的是店播,数据基本能保持跟真人一样。 3. 数字人直播的壁垒和未来市场格局: 时间拉长,技术上没壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 不会一家独大,可能 4 5 家一线效果,大多二三线效果公司。 真正把客户服务好,能规模化扩张的公司更有价值。 有资源、有业务的大平台下场,可能会带来降维打击。 此外,还有关于数字人带货的具体操作案例: 1. 用 ChatGPT 生成短视频选题文案,表明身份、描述需求和回答要求,以美妆行业为例。 2. 用 ChatGPT 生产短视频文案,将需求与框架结合。 3. 生成虚拟数字人短视频: 打开网站 https://studio.did.com/editor 。 在右侧文字框输入 ChatGPT 生成的内容,选择想要的头像、不同的国家和声音。 点击右上角的 Create Video ,等待生成。生成后结合产品做讲解即可发布去做视频带货。 数字人的简介:数字人是运用数字技术创造出来的人,目前业界没有准确定义,一般根据技术栈不同分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要应用于影视行业和直播带货,表现质量与手动建模精细程度及动捕设备精密程度直接相关,随着视觉算法进步,在无昂贵动捕设备时也能通过摄像头捕捉人体骨骼和人脸关键点信息达到不错效果。
2025-01-19
数字人
数字人是运用数字技术创造出来的人,虽现阶段不能如科幻作品中那样高度智能,但已在各类生活场景中出现,且随着 AI 技术发展迎来应用爆发。目前业界尚无准确定义,一般可根据技术栈分为真人驱动和算法驱动两类。 真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,主要用于影视行业及直播带货,其表现质量与手动建模精细度及动捕设备精密程度直接相关,不过视觉算法进步使在无昂贵动捕设备时,通过摄像头捕捉人体骨骼和人脸关键点信息也能有不错效果。 制作数字人的工具主要有: 1. HeyGen:AI 驱动的平台,能创建逼真数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人自动转换成语音并合成逼真说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。使用这些工具时,请遵守相关使用条款和隐私政策,注意生成内容的版权和伦理责任。 以下是一些包含数字人的节目单示例: 1. 节目“猜真人”:魔术互动类表演,2 个、8 个数字分身,分辨哪个是真正的我,用到 AI 数字人技术。 2. 节目“亲情的应用场景(逝者)”:女儿打扫房间扫到去世父亲二维码再次对话,涉及 AI 分身积累准备。 3. 节目“AI 转绘”:经典电影混剪,用到短片素材、AI 转绘、Lora 技术。 4. 节目“AI 贺岁”:晚会中场致谢,包括共创团队记录、新年祝福等。 5. 节目“打工人共情”:涉及 AI 素材、共情脚本、炫技视频剪辑。
2025-01-18
我想做一个猫咪做饭的短视频,有五个分镜头。我先用文生图生成图片,在用图片生成视,最后剪辑在一起。问题是文生图的时候,生成的图片,效果不太理想
以下是为您提供的一些可能有助于改善文生图效果不理想问题的建议: 1. 仔细检查您输入的画面描述,确保描述清晰、具体、准确,包含足够的细节和特征,以便模型更好地理解您的需求。 2. 尝试调整关键词和描述的侧重点,突出您想要的关键元素,比如猫咪做饭的动作、表情、厨房环境等。 3. 更换不同的文生图模型或工具,有些模型可能在某些特定类型的图像生成上表现更出色。 4. 参考其他优秀的类似主题的图像,学习其构图、色彩、光影等方面的处理方式,从而优化您的画面描述。 5. 多次尝试生成,并对每次生成的结果进行分析和总结,找出问题所在,逐步改进描述。
2025-01-17
用ai做装修效果图
以下是一些关于用 AI 做装修效果图的相关信息: 有案例显示整个装修方案流程可由 GPT4 完成,包括图纸、预算、设计装修风格、施工、风水布局,最后能出 3D 效果图,全屋显示。您可查看 。 还有模型可生成自定义服装效果图,支持颜色、款式、材质等多种细节描述,基于 H&M Fashion Captions 数据集,提供多样化的时尚风格参考,模型权重为 Safetensors 格式,便于集成和使用。模型下载: 。 OpenAI 以 1550 万美金购得 Chat.com 域名,该域名现已指向 ChatGPT 服务,相关链接: 。
2025-01-17
如何使用ai绘画效果最好
以下是关于如何使用 AI 绘画效果最好的一些建议: 1. 关键词方面: 基础描述:首先定义画面的基本元素,如“a beautiful and cute princess”。 风格指定:指定所需的艺术风格,例如“line art”或“flat illustration”。 色彩要求:如果需要特定的色彩效果,可以指定“black and white color matching”。 细节强调:强调线条的粗细变化,如“changes in line thickness”。 2. 艺术效果: 色彩的丰富性:通过着色,黑白线条画可以获得丰富的色彩层次,使得画面生动起来。 情感表达:不同的色彩可以传达不同的情感和氛围,增加作品的表现力。 细节和纹理:着色可以突出画面中的细节和纹理,增强作品的质感和立体感。 创意发挥:着色画提供了一个平台,让创作者可以自由发挥,创造出独一无二的艺术作品。 3. 进阶玩法: 用 MJ 的 Retexture 功能,写提示词或垫图功能给着色画上色。 用即梦参考功能,写提示词或垫图功能给着色画上色。 4. 风格特点: Memphis style 孟菲斯风格:以大胆几何图案、鲜艳色彩、挑战传统设计规则闻名,影响家具、纺织品、陶瓷、平面设计、建筑等领域,具有强烈色彩对比、大量不规则重叠几何图形、抽象装饰性、材料质感混合、反传统功能主义等特点。建议结合插画或简笔画,niji 出图效果更佳。 5. 技巧: 像乐高一样,多组合现有关键词,顺序代表权重,重点表现的放前面。 使用“/blend”指令,丢两张形象背景相似图比直接刷图效率更高,形象保持更好。 尝试加入刺绣风格关键词,如苏绣 Su embroidery、湘绣 Hunan embroidery、粤绣 Cantonese embroidery、蜀绣 Sichuan embroidery。 6. 工具: SD 相关: 可以使用云端工具,如 https://www.esheep.com/workflow,无需考虑配置。 ComfyUI 适合理科生、学计算机的。 可以参考 Nenly 的 SD 教程视频,如 https://www.bilibili.com/video/BV1D7421N7xN/ 。 对于一些复杂的图,可以先去掉微调模型用底模生一张图,然后用 ControlNet 加上微调模型出新图。
2025-01-15
哪个图片生成工具的效果非常好
以下是一些效果较好的图片生成工具: 1. 谷歌图像生成工具:理解能力强,生成速度快,每日免费 500 次,但有使用门槛,不能输入中文,可调整提示词和选项,能根据提示词生成不同风格和复杂程度的图像,随机种子影响生成结果,可提供参考图设置主题场景样式。 2. 纳米搜索反推提示词:可上传图片让其反推 midjourney 提示词,输出效果好,能调用多种模型,查阅资料也可用,会搜索全网并精选资料,还能看到调用的内容和参考资料。 3. Artguru AI Art Generator:在线平台,生成逼真图像,给设计师提供灵感,丰富创作过程。 4. Retrato:AI 工具,将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 5. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 6. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,将上传的照片转换为芭比风格,效果超级好。 7. Grok 客户端:支持免费生成图像和聊天功能,图像生成效果优秀。 需要注意的是,这些 AI 模型可能存在一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2025-01-13
我使用了豆包,也学习了简单的提示词,但大数据反馈的结果并不好,很多数据分析,文档优化效果并不理想。我该怎么办
以下是一些可能有助于您改善大数据反馈结果和提升数据分析、文档优化效果的建议: 1. 像“给 Prompt 打分”的示例中那样,找专业的“Prompt 药剂师”对您的提示词进行详细分析,给出准确的评分和改进建议,以提升提示词的质量。 2. 对于数据分析和文档优化任务,要清晰明确地向模型阐述需求。例如,提供大模型可访问的数据源或上传数据表格,通过清晰的提示词说明需要从哪些维度分析数据,以及期望的分析结果输出格式。然后观察生成结果,不断迭代和优化提示词。 3. 对于“大模型幻觉”问题,目前虽无法完全消除,但可以通过其他第三方信息源和知识来检验生成内容是否准确。 4. 若想提高大模型的对话能力,可在 AGI 中搜索“结构化”获取相关文章。另外,如果您指的上下文 token 长度是大模型的记忆窗口,通常是无法延长的,因为这是设定好的。 5. 在用 ChatGPT 写剧本并希望其学习现有成功剧本时,要精心设计提问,清晰准确地表达您的需求,例如明确指出需要总结的规律以及在后续创作中的应用方式。
2025-01-08
为一张3层建筑渲染里面效果,请为我提供相关的提示词
以下是为您提供的 3 层建筑渲染效果的相关提示词: 视角:LowAngle(仰视)、3d isometric blueprint(3D 等轴测蓝图)、3D isometric model(3D 等轴测模型) 介质:abstract expressionist art style(抽象表现主义艺术风格) 镜头:superresolution microscopy(超分辨率显微镜) 灯光:ambient lighting(环境照明)、overhead lighting(头顶照明) 颜色:white(白色)、darkbrown(深棕色) 描述:classical realism(古典现实主义) 艺术家:Kazimir Malevich(卡齐米尔·马列维奇) 电影:2001 A Space Odyssey(2001 太空漫游)、Fantasia(幻想曲) 游戏:Age of Empires(帝国时代)、EarthBound(地球之旅) 画面精度:high detail(高细节)、hyper quality(高品质)、high resolution(高分辨率)、FHD,1080P,2K,4K18K 全高清.1080P,2K,4K,8K、8k smooth 8 流畅 渲染效果:Unreal Engine(虚幻引擎)、octane render(渲染器)、Maxon Cinema 4D 渲染器、architectural visualisation(建筑渲染)、Corona Render(室内渲染)、Quixel Megascans Render(真实感)、VRay V 射线、Behance、C4D、3D、blender、surreal photography(超现实摄影)、realistic 3D(真实 3D)、zbrush
2025-01-05
在中国国内,AI编程最好的解决方案
在中国国内,以下是一些关于 AI 编程的较好解决方案: 1. 字节发布的全新 AI IDE:Trae。它具有免费无限量使用 Claude 的特点,但目前存在一些小问题,如无法及时调整 Prompt 模块等,不过随着产品的快速迭代有望得到修复。其官网为:https://www.trae.ai/ 。 2. MCP 理念:工具应适应 AI 的认知方式,让 AI 理解要做的事,然后自主寻找合适的工具和方法,而非按固定步骤执行。 3. 中国的一些模型在 LMSYS 排行榜上表现优异,如 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型,在数学和编程方面有出色表现。中国模型更注重计算效率,以弥补 GPU 访问限制,并有效利用资源。例如 DeepSeek 在推理过程中通过多头隐式注意力减少内存需求,改进 MoE 架构;零一万物更关注数据集建设。
2025-01-22
我是一位外贸业务员,我想用AI帮助到我提升业务能力,业务业绩,请给我一些方案
很抱歉,您提供的内容与您作为外贸业务员利用 AI 提升业务能力和业绩的需求不相关,无法为您提供有效的方案。一般来说,您可以利用 AI 工具进行以下操作来提升业务: 1. 利用自然语言处理的 AI 工具,对客户的邮件和咨询进行快速准确的理解和回复,提高沟通效率和质量。 2. 借助 AI 数据分析工具,深入挖掘市场数据和客户行为数据,以便更精准地定位目标客户和市场需求。 3. 使用 AI 驱动的翻译工具,确保与国际客户的交流准确无误,消除语言障碍。 4. 利用 AI 预测模型,对市场趋势和销售情况进行预测,从而优化库存管理和销售策略。
2025-01-21
AI 做产品渲染图的工具和企业内落地使用的流程和方案是什么
以下是关于 AI 做产品渲染图的工具和企业内落地使用的流程和方案的相关内容: 工具: 等工具可帮助品牌创建引人注目的产品照片。 可制作用于电子邮件或社交媒体的营销材料。 可以编写经过 SEO 优化的产品描述。 企业内落地使用流程和方案: 1. 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况,处理大量数据,快速识别关键信息,如受欢迎的产品、价格区间、销量等。 2. 关键词优化:借助 AI 分析和推荐高流量、高转化的关键词,优化产品标题和描述,提高搜索排名和可见度。 3. 产品页面设计:使用 AI 设计工具,根据市场趋势和用户偏好自动生成吸引人的产品页面布局。 4. 内容生成:运用 AI 文案工具撰写有说服力的产品描述和营销文案,提高转化率。 5. 图像识别和优化:通过 AI 图像识别技术选择或生成高质量的产品图片,更好地展示产品特点。 6. 价格策略:利用 AI 分析不同价格点对销量的影响,制定有竞争力的价格策略。 7. 客户反馈分析:借助 AI 分析客户评价和反馈,了解客户需求,优化产品和服务。 8. 个性化推荐:依靠 AI 根据用户的购买历史和偏好提供个性化的产品推荐,增加销售额。 9. 聊天机器人:采用 AI 驱动的聊天机器人提供 24/7 的客户服务,解答疑问,提高客户满意度。 10. 营销活动分析:使用 AI 分析不同营销活动的效果,了解哪些活动更能吸引顾客并产生销售。 11. 库存管理:依靠 AI 帮助预测需求,优化库存管理,减少积压和缺货情况。 12. 支付和交易优化:利用 AI 分析不同的支付方式对交易成功率的影响,优化支付流程。 13. 社交媒体营销:借助 AI 在社交媒体上找到目标客户群体,通过精准营销提高品牌知名度。 14. 直播和视频营销:运用 AI 分析观众行为,优化直播和视频内容,提高观众参与度和转化率。
2025-01-17
如果想购建一个自己的知识库,最好的方案是什么?
要构建自己的知识库,以下是一些可行的方案: 1. 基于 GPT API 打造: 给 GPT 输入定制化知识,但需注意 GPT3.5(免费版 ChatGPT)一次交互的 Token 限制。 OpenAI 提供了 embedding API 解决方案,embeddings 是浮点数字的向量,向量间距离衡量关联性,小距离表示高关联度。 可将大文本拆分成小文本块,转换为 embeddings 向量并保存,用户提问时将问题转换为向量与储存库比对,提取关联度高的文本块与问题组合成新 prompt 发送给 GPT API。 2. 本地部署大模型及搭建: 访问特定网址,使用邮箱注册账号。 Open WebUI 一般有聊天对话和 RAG 能力(让模型根据文档内容回答问题)两种使用方式,RAG 能力是构建知识库的基础之一。 若要求不高,已可实现本地大模型通过 Web UI 对话功能。但 ChatGPT 访问速度快、回答效果好,原因在于服务器配置高、训练参数多、数据更优及训练算法更好。若想更灵活掌握知识库,可进一步操作。
2025-01-16
大模型应用解决方案
以下是关于大模型应用解决方案的相关内容: 零跑汽车基于百炼实现大模型落地零跑座舱 客户介绍:零跑汽车成立于 2015 年 12 月 24 日,是一家创新型的智能电动汽车品牌,拥有智能电动汽车完整自主研发能力,2023 年已位列新能源品牌销量前三。从 2017 年起,零跑汽车便与阿里云展开深度合作。近日,零跑汽车已对 OTA 功能完成大规模升级,携手阿里云首次在座舱场景中增加“语音大模型”功能,用于聊天、基础知识问答、文生图等场景,提升用户驾驶体验。 阿里云的解决方案: 接入通义大模型实现开放式语音交互:改变了传统的固定形式的问答模式,支持用户与零跑智能座舱进行开放式语音交互(闲聊场景),进行自然、连贯的多轮对话,可秒级响应,同时结合企业知识库和互联网知识库,满足用户多元化的需求。 基于语音调用通义万相实现秒级作图:零跑采用语音助手调用云端通义系列大模型,帮助用户通用语音调用通义万相实现文生图换壁纸,实现秒级作图,提升娱乐互动;支持语音查找如何使用汽车功能、规划路径等功能,丰富用户操作体验;知识库内容覆盖了零跑全系汽车知识和其他汽车品牌开放领域的信息。 基于百炼构建大模型应用架构:基于百炼平台,零跑汽车构建了开放、可扩展的大模型应用架构,基于统一的大模型底座,实现了零跑座舱大模型应用场景的快速扩展与迭代,降低大模型应用的创新门槛与成本。 RAG 提示工程(一):基础概念 大语言模型应用于实际业务场景存在的问题: 知识的局限性:模型自身的知识完全源于训练数据,对于实时性、非公开或离线的数据无法获取。 幻觉问题:大模型基于数学概率的文字预测,存在提供虚假、过时或通用信息等问题。 数据安全性:企业担心数据泄露,不愿将私域数据上传第三方平台训练。 RAG 的优势:可以让大模型从权威、预先确定的知识来源中检索、组织相关信息,更好地控制生成的文本输出,用户可深入了解 LLM 生成结果的过程。并且,RAG 可以和微调结合使用,两者并不冲突。 七大行业的商业化应用 企业解决大模型落地难问题: 算力方面:国产芯片在软件适配度、稳定性方面不足,与英伟达显卡解耦能力弱。可以从协同化、模型小型化、再训练、融合计算四方面来解决算力矛盾问题。 价格方面:训练成本高、数据筛选难度大,千亿参数模型报价高昂,让很多客户望而却步。垂直大模型的数据生成规模小、场景易用、Chat 思维能力高。
2025-01-12
怎样利用自己现有的培训文档,制作一个AI agent可以担任系统分析员的工作,从文档中抽丝剥茧找出系统问题的根本原因和解决方案?
目前没有相关的培训文档内容可参考。但一般来说,要利用现有的培训文档制作一个能担任系统分析员工作的 AI agent 并从文档中找出系统问题的根本原因和解决方案,您可以考虑以下步骤: 1. 对培训文档进行详细的梳理和分类,提取关键信息,例如系统常见问题的特征、根本原因的类型以及可能的解决方案模式。 2. 利用自然语言处理技术,对提取的信息进行标注和训练,使 AI agent 能够理解和识别这些模式。 3. 设计有效的交互方式,让用户能够向 AI agent 清晰地描述系统问题,以便它能够准确地匹配和应用所学知识。 4. 不断测试和优化 AI agent 的性能,根据实际应用中的反馈,调整训练数据和算法,提高其准确性和实用性。
2025-01-10