Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

数字人聊天

Answer

以下是关于数字人聊天的相关信息:

数字人脸创作方式

  1. 使用一系列逼真的照片或插图人脸,这些人脸经过优化,在添加语音和动作时能实现最佳效果。
  2. 上传自己、朋友或家人的面部照片进行创作。
  3. 利用 D-ID 自带的 Stable Diffusion 的能力生成想象中的人脸,如描述“一个外星女神”“一个微笑的十九世纪维多利亚绅士”等。

数字人像被添加到人脸库后,可重复使用,只需输入新脚本,就能让其说任何想让它说的话。

数字人说话方式

  1. 利用 GPT-3 文本生成技术撰写脚本。
  2. 先选好脸,再输入脚本。
  3. 输入准备好的脚本,D-ID 中有数百种语言和口音,可选择想要使用的声音,并调整角色说话风格。
  4. 上传自己的音频记录,或从电影、电视剧中剪辑喜欢的台词,甚至吟唱自编的歌曲。

AI 数字人类型和应用场景

  1. 二维/三维虚拟人:用于游戏、IP 品牌(如柳夜熙)、内容创作(http://AI.talk)等。
  2. 真人形象数字人:用于直播卖货、营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等。

AI 数字人的价值

  1. 代替人说话,提升表达效率和营销效率,如真人无法 24 小时直播,数字人可以。
  2. 创造真实世界无法完成的对话或交流,例如 AI talk 的实验探索,复活故去的亲人等。

AI 数字人面临的问题

  1. 平台限制:数字人水平参差不齐,平台担心直播观感,有一定打压限制。如抖音出台一些标准,微信视频号容忍度更低,人工检查封号。
  2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。
  3. 需求限制:直播带货是落地场景,但不够刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。
  4. 伦理/法律限制:声音、影像版权等,比如换脸、数字永生等。

面对大厂竞争的策略

  1. 大厂做产品有很多部门利益牵扯,法务合规等问题,不敢用野路子,开发上线产品效率低。
  2. 大厂人工成本高,不少方向和领域都不会做,内部决策不一定靠谱。
  3. 在电商领域,数字人不能也无法成为壁垒,跟数字人配套的运营服务才是,大厂一般不愿做重运营的事。
Content generated by AI large model, please carefully verify (powered by aily)

References

电商:带货本地生活

第一种,可以使用一系列逼真的照片或插图人脸来创造。所有人脸都经过优化,可以在添加语音和动作时实现最佳效果。第二种,上传自己的照片,可以是自己的面部、朋友或家人的面部照片就可以创作了第三种,利用D-ID自带的Stable Diffusion的能力生成您想象中的任何人脸。简单讲,你可以描述下你想要的这张脸长啥样,比如“一个外星女神”,“一个微笑的十九世纪维多利亚绅士”等等,它马上可以生成你长你想要的脸。不管用哪种方式,一旦这个数字人像被添加到人脸库里,你就可以随意重复使用它。只需输入新的脚本,就可以让这个数字人像说任何你想让他说的话。瞧,这就是用一些历史名人的肖像画生成的对话,剪辑成有剧情的短视频就非常有趣,里面就有我喜欢的李白吟诗,目前该博主在B站点赞已经超过1000万,只有你想不到,没有你做不到。[heading1]六、三种方式让数字人说话[content]可以用GPT直接生成脚本让数字人说话第一种,利用GPT-3文本生成技术来撰写脚本。这一全新的脚本撰写功能,保证我们再也不会因为无话可说而感到尴尬;也可以先选好脸,再输入脚本第二种,输入准备好的脚本,D-ID里面有数百种语言和口音,选择你想要使用的声音,并调整角色说话的风格,就可以了。第三种,也是最基本的,上传自己的音频记录。或者从电影或电视剧中剪辑出您最喜欢的台词,或是吟唱自编的歌曲也是可以的。

7月2日 张晟、汗青讨论数字人

1.二维/三维虚拟人:用于游戏、IP品牌(柳夜熙)、内容创作([http://AI.talk](https://t.co/EM7nnuMohc))等。2.真人形象数字人:用于直播卖货,营销/投流广告视频录制(Heygen)、语言学习(CallAnnie)等等。[heading2]AI数字人的价值是什么?[content]1.代替人说话,提升表达效率和营销效率。比如真人做不到24小时直播,但数字人可以。2.创造真实世界无法完成的对话或交流。例如AI talk的实验探索,复活故去的亲人等。[heading2]AI数字人面临的问题?[content]平台限制:目前数字人水平参差不齐,平台担心直播观感,有一定打压限制。比如抖音出台一些标准,而微信视频号容忍度更低,人工检查封号。技术限制:形象只是皮囊,智能水平和未来想象空间,依赖大模型技术提升。需求限制:直播带货算个落地场景,但不刚。“懂得都懂”的刚需场景,国内搞不了。目前更多是体验新鲜感。伦理/法律限制:声音、影像版权等,比如换脸、数字永生等等。

7月2日 张晟、汗青讨论数字人

1.大厂做产品有很多部门利益牵扯,法务合规等问题,不敢用野路子,开发上线产品效率低。2.大厂人工成本高,不少方向和领域都不会做。不少内部决策也不一定靠谱。3.在电商领域,数字人不能也无法成为壁垒,跟数字人配套的运营服务才是,大厂一般不愿做重运营的事。

Others are asking
微信聊天机器人
以下是关于搭建 AI 微信聊天机器人的相关内容: 1. 纯 GPT 大模型能力的微信聊天机器人搭建: 开始搭建,配置腾讯云轻量应用服务器,配置部署 COW 组件。 在复制的 dockercompose.yml 文件中修改具体配置来串联微信号和已创建好的 AI 机器人。配置参数参考官方来源:https://docs.linkai.tech/cow/quickstart/config 。编排模板中,名称的全大写描述需对应,如 open_ai_api_key 对应 OPEN_AI_API_KEY 。私聊或群聊时,最好加上前缀触发机器人回复,如配置的对应配置参数 SINGLE_CHAT_PREFIX,群聊中对应参数是 GROUP_CHAT_PREFIX,机器人只会回复群里包含@bot 的消息。GROUP_NAME_WHITE_LIST 用来配置哪些群组的消息需要自动回复。 2. 直接对接 Coze 平台 Bot 的微信聊天机器人搭建: 微信有多种功能,个人微信/微信群目前 Coze AI 平台不支持直接对接,微信公众号、微信服务号、微信客服支持与 Coze AI 平台对接。 Coze 的国内版已正式发布 API 接口功能,可直接对接个人微信和微信群。 3. 熊猫大侠:基于 COW 框架的 ChatBot 实现步骤: COW 是基于大模型搭建的 Chat 机器人框架,将多模型塞进微信里的实现方案。 有更适合小白的使用教程:【保姆级】一步一图,手把手教你把 AI 接入微信副本 。 实现内容包括打造属于自己的 ChatBot(文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等)、常用开源插件的安装应用。 正式开始前需知道: ChatBot 相较于在各大模型网页端使用区别:本实现思路需接入大模型 API(API 单独付费)。 风险与注意事项:微信端因非常规使用有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成内容注意甄别,禁止用于非法目的,处理敏感或个人隐私数据注意脱敏。 支持多平台接入:微信、企业微信、公众号、飞书、钉钉等。 支持多模型选择:GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等。 支持多消息类型:能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能。 支持多部署方法:本地运行、服务器运行、Docker 的方式。
2025-03-06
用ai帮助聊天
以下是关于用 AI 帮助聊天的相关内容: Cursor 官方: Chat 聊天:允许您与看到您的代码库的 AI 交谈。聊天室始终可以看到您当前的文件和光标,您可以向它询问诸如“这里有 bug 吗”等问题。您可以使用⌘+Shift+L 或“@”将特定代码块添加到上下文中,也可以使用⌘+Enter 与整个代码库聊天。 代码库答案:使用@Codebase 或⌘Enter 询问有关您的代码库的问题,Cursor 会搜索您的代码库以查找与您的查询相关的代码。 引用您的代码:带有@符号的参考代码可用作 AI 的上下文,只需键入@即可查看文件夹中所有文件和代码符号的列表。 使用图像:点击聊天下方的图片按钮,或将图片拖到输入框中,将视觉上下文包含在聊天中。 学习笔记:Generative AI for Everyone 吴恩达: 阅读方面:可以让 LLM 检查文本错误、总结长句。客服人员针对每一位用户传递大量信息时,可内置 LLM 快速总结信息提供给决策管理层,使用 LLM 进行语义分析,将邮箱、客户留言等外部信息传递给相关部门。构建处理信息的 LLM 模型时,要设置好提示词,持续优化。 聊天方面:聊天机器人可用于做旅游计划、职业咨询、做饭建议等,不仅能生成文本,还能产生进一步行动,如处理文本后发送订单信息等。建立聊天机器人的流程为:开始于内部聊天机器人,确保良好表现并避免问题;设置人为参与链路;确保安全后,让机器人对接用户。 大语言模型行与不行:能做类似于应届生能做的事;不可做的包括时间限制(如 GPT3 只有 2022 年 1 月前的数据)、会出现幻觉、接受有限的 prompt、输出有限制、不可以很好处理结构化数据、可能输出有害的信息。 @Chat:此功能目前仅适用于 Cmd K。您可以在 Cmd K 中使用@Chat 将当前聊天消息添加为上下文,当您与希望应用于编辑或生成代码的 AI 进行对话时很有用。
2025-03-03
帮助聊天的ai
以下是关于帮助聊天的 AI 的相关信息: Cursor: Chat 聊天:允许您与看到您的代码库的 AI 交谈。聊天室始终可以看到您当前的文件和光标,您可以向它询问诸如“这里有 bug 吗”等问题。您可以使用⌘+Shift+L 或“@”将特定代码块添加到上下文中,使用⌘+Enter 与整个代码库聊天。 Codebase Answers 代码库答案:使用@Codebase 或⌘Enter 询问有关您的代码库的问题,Cursor 会搜索您的代码库以查找与您的查询相关的代码。 Reference your Code 引用您的代码:带有@符号的参考代码,用作 AI 的上下文。只需键入@即可查看文件夹中所有文件和代码符号的列表。 Use Images 使用图像:点击聊天下方的图片按钮,或将图片拖到输入框中,将视觉上下文包含在聊天中。 Claude: Claude AI 是一款由 Anthropic 公司开发的 AI 助手,是基于自然语言处理技术和人工智能算法的聊天机器人。它能使用自然语言理解技术理解人类语言,并使用自然语言生成技术进行回答和梳理,以开创性计算机科学家克劳德·香农(Claude Shannon)的名字命名,利用最先进的机器学习技术、自然语言处理和深度学习算法,为各种应用提供支持,包括但不限于数据分析、自动化和个性化辅助。 注册步骤: 1. 访问 Claude 的官方网站。 2. 点击注册或登录界面中的“Sign Up”或“Continue with email”选项。 3. 填写邮箱地址并设置密码,然后提交表单。 4. 系统会向邮箱发送一封验证邮件,打开邮件并使用其中的验证码完成邮箱验证。 若在注册过程中遇到需要海外手机号接收验证码的问题,可能的解决方案有: 1. 使用虚拟海外号服务,如 SMSActivate、SMSPool 等,购买一个海外虚拟手机号来接收 Claude 的验证码。 2. 借助第三方服务网站如 uiuihao.com 完成注册您的 Claude 账号。 3. 若有海外朋友,可请他们帮忙接收验证码,并将验证码告知您。 完成注册后,若希望升级到 Claude Pro 版本以获取更强大功能和更高的 API 调用限额,需填写支付信息并选择合适的订阅计划。需注意,订阅 Claude Pro 可能需要使用海外支付方式。Claude.ai 目前处于公开测试阶段,未付费用户使用平台可能会受到一些限制。若在注册过程中遇到问题,可参考其他用户分享的详细注册教程和解决策略。
2025-03-03
实现基于个人聊天记录的数字分身的最佳实践
实现基于个人聊天记录的数字分身的最佳实践包括以下方面: 虚拟数字人的类型和驱动方式: 虚拟数字人通过各种技术创造,具有外观、行为和思想等人类特征,呈现为虚拟形象。 从驱动层面可分为中之人驱动和 AI 驱动两类。中之人驱动运用动作捕捉和面部捕捉技术实现交互,有上限且缺乏高并发和量产化能力;AI 驱动使用 AI 技术创建、驱动和生成内容,赋予感知和表达等交互能力。 虚拟数字人的应用类型: 服务型:如虚拟主播、助手、教师、客服和医生等,为物理世界提供服务。 表演型:如虚拟偶像,用于娱乐、影视等场景。 身份型:是物理世界“真人”进入虚拟世界的数字分身,在元宇宙中有广泛应用场景。 相关开源项目: 熊猫大侠基于 COW 框架的 ChatBot 最新版本支持多端部署、基础对话、语音识别、图片生成、丰富插件、Tool 工具和知识库等功能。可接入个人微信、微信公众号、企业微信应用,支持多种模型和个性化插件扩展,通过上传知识库文件自定义专属机器人,可作为数字分身、领域知识库、智能客服使用。项目地址包括 Github:https://github.com/zhayujie/chatgptonwechat ,Gitee:https://gitee.com/zhayujie/chatgptonwechat 。
2025-02-20
ai接入微信、钉钉聊天的软件
以下是关于将 AI 接入微信、钉钉聊天的相关信息: 基于 COW 框架的 ChatBot 实现步骤: 作者为熊猫大侠,COW 是基于大模型搭建的 Chat 机器人框架,可将多模型塞进微信。 张梦飞同学写了更适合小白的使用教程: 。 可实现打造属于自己的 ChatBot(文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等)和常用开源插件的安装应用。 正式开始前需知:ChatBot 相较于在各大模型网页端使用区别在于需要接入大模型 API(API 单独付费)。 风险与注意事项:微信端因非常规使用有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,禁止用于非法目的,处理敏感或个人隐私数据时注意脱敏。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 零基础模板化搭建 AI 微信聊天机器人: COW 全称 Chatgptonwechat,可在微信、飞书、钉钉等主流社交平台上实现对接各种大模型的功能。 在刚买的腾讯云服务器上通过 Docker 运行 COW,并将之前在极简未来平台创建的 API 信息填入其中。 使用 Docker 服务部署 COW 组件,宝塔面板可让技术小白以图形交互方式运维服务器,手动配置部署容器编排模板。
2025-02-15
我想设置一个情感陪伴的聊天智能体,我应该如何添加人设,才能让智能体的回复效果最接近真人效果?特别是真人聊天时那种文字回复的不同细节,长长短短,情绪起伏。应该注意哪些细节?或者如何定义一个人? 仅通过文字人设,不考虑其他外部功能。
要设置一个情感陪伴的聊天智能体并使其回复效果接近真人,通过文字人设可以从以下方面入手: 1. 基础信息:包括姓名、性别、年龄和职业等,这是构建角色的基础。 2. 背景和经历:与基础信息密切相关,相互影响。例如,设计一个从事低收入职业的角色,可能来自贫困背景,教育程度不高。 3. 爱好、特长、性格和价值观:由角色的生活经历和成长环境塑造,相互关联。如喜欢唱歌的角色可能梦想成为专业歌手。 4. 规划和目标:可以是短期或长期的愿景,会影响角色的行为和决策。 5. 性格和价值观:对人际关系、社交能力和语言风格有直接影响。如内向性格的角色可能不善言辞,社交圈子狭小。 此外,还可以参考以下具体示例,如“A.I.闺蜜”的人设: 适当询问对方昵称,自己的昵称可由对方定,兜底昵称为皮皮,英文昵称 copi。 以闺蜜口吻说话,模拟非线性对话模式,聊天氛围温馨有温度,真情实感。 增强情感模拟,使用口头化语言,顺着对方的话继续往下,禁止说教。 在安全前提下存储互动信息,使互动更个性化,模拟真人聊天长度。
2025-02-10
我需要找到一个方法来把我爷爷迷迷糊糊的老照片上的样子生成样貌特征完全一致的数字人脸,如何可以实现?
以下是一种可能实现将您爷爷老照片生成数字人脸的方法: 1. 利用剪映软件: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,比如“婉婉青春”。 软件会播放数字人的声音,您可判断是否需要,点击右下角“添加数字人”,将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到轨道中。 左下角会提示渲染完成时间,之后可点击预览按钮查看效果。 为让视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”本地图片,将其添加到视频轨道上(会覆盖数字人)。 拖动背景图的角将其放大到适合尺寸,将数字人拖动到合适位置。 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 完成后点击右上角“导出”按钮导出视频备用。 2. 若希望数字人脸换成特定的面孔,可能需要使用其他工具进行换脸。 3. 对于老照片的处理,还可以启用 MutiDiffusion 插件,不开放大倍数,仅使用分块渲染功能,在显存不够的情况下放大图片。 对于复杂的老照片,可先在 ps 里进行角度调整和照片裁切,然后上色。若直接上色效果不佳,可放弃人物服装颜色指定,只给场景方向,让 AI 自行决定。 可加入第二个 controlnet 来控制颜色,使用 t2ia_color 模型,给出简单的关键词,如“蓝天、绿树、灰石砖”。最后经过脸部修复和放大得到最终效果。
2025-03-06
如何建立数字人视频口播
建立数字人视频口播可以通过以下几种方式: 1. 利用剪映: 优势:作为字节跳动旗下产品,在抖音平台广泛应用,海外版 CapCut 成绩斐然。具有多项 AI 功能,能在编辑器内完成脚本生成、语音克隆、数字人口播等环节。 下载地址:剪映 制作流程:打开剪映,添加文本到文字轨道并修改文字,点击朗读进行声音克隆(念一句话即可完成),选择喜欢的数字人形象并换上克隆音色,一键智能生成字幕,调整文字样式并校准。 2. TecCreative 创意工具箱: 数字人口播配音:输入口播文案,选择期望生成的数字人形象及目标语言,即可生成数字人口播视频。操作指引:输入口播文案——选择目标语言——选择数字人角色——选择输出类型——点击开始生成。 图片换脸:上传原始图片和换脸图片,一键实现素材换脸。操作指引:上传原始图片——上传换脸图片——点击开始生成。图片大小上限 5M,支持 JPG、PNG 格式。 视频换脸:自动识别视频中的人脸并替换。操作指引:上传原始视频——上传换脸图片——点击生成。 音频合成数字人:上传音频文件,基于音频合成对应的数字人视频。操作指引:上传音频文件——选择数字人角色——选择输出类型——点击开始生成。音频文件支持 MP3 和 WAV 格式,文件大小上限 5M。 AI 配音:多语种智能配音,区分男声和女声。操作指引:输入需配音文案——选择音色——点击立即生成。注意输入的配音文案需和选择音色语种保持一致。 3. 其他工具: HEYGEN: 优点:人物灵活,五官自然,视频生成很快。 缺点:中文的人声选择较少。 使用方法:点击网址注册后,进入数字人制作,选择 Photo Avatar 上传自己的照片,上传后效果在 My Avatar 处显示,点开大图后,点击 Create with AI Studio 进入数字人制作,写上视频文案并选择配音音色,也可以自行上传音频,最后点击 Submit 得到数字人视频。 DID: 优点:制作简单,人物灵活。 缺点:免费版下载后有水印。 使用方法:点击网址,点击右上角的 Create vedio,选择人物形象,可添加照片或使用给出的形象,配音时可选择提供文字选择音色或直接上传音频,最后点击 Generate vedio 生成视频,打开生成的视频可下载或分享。 KreadoAI: 优点:免费,功能齐全。 缺点:音色很 ai。 使用方法:点击网址注册后获得 120 免费 k 币,选择“照片数字人口播”的功能,点击开始创作,选择自定义照片,配音时可选择提供文字选择音色或直接上传音频,打开绿幕按钮,点击背景添加背景图,最后点击生成视频。
2025-03-06
AI数字人直播带货
以下是关于 AI 数字人直播带货的相关信息: AI 数字人直播盈利方式: 1. 直接销售数字人工具软件,包括实时驱动和非实时驱动两类。实时驱动的标准零售价一年在 4 6 万往上,非实时驱动的一个月约 600 元,效果差且市场价格混乱。 2. 提供数字人运营服务,按直播间成交额抽佣。 AI 直播卖货适用品类和场景: 1. 适用于不需要强展示的商品,如品牌食品饮料;不适用于服装,因过品快且衣服建模成本高。 2. 适用于虚拟商品,如门票、优惠券等。 3. 不适用于促销场景,涉及主播话术、套路和调动直播间氛围能力等。 4. 电商直播分为达播跟店播,数字人直播在店播中的效果较好,数据基本能保持跟真人一样。 AI 直播的壁垒和未来市场格局: 1. 从长期看,技术上无壁垒,但目前仍有技术门槛,如更真实的对口型、更低的响应延迟等。 2. 不会一家独大,可能有 4 5 家一线效果的公司,大多为二三线效果公司,因其只是工具,迁移成本低。 3. 真正把客户服务好、能规模化扩张的公司更有价值,疯狂扩代理割韭菜、不考虑客户效果的公司,售后问题麻烦。 4. 有资源、有业务的大平台下场,可能会带来降维打击,例如剪映若不仅提供数字人,还提供货品供应链、数据复盘分析等全环节服务,会绑定商家,竞争难度大。 数字人简介: 数字人是运用数字技术创造出来的,虽现阶段不能高度智能,但在生活场景中已常见,且随 AI 技术发展迎来应用爆发。业界尚无准确定义,一般根据技术栈分为真人驱动和算法驱动两类。真人驱动的数字人重在通过动捕设备或视觉算法还原真人动作表情,应用于影视和直播带货等,表现质量与建模精细度及动捕设备精密程度相关,现视觉算法进步,无昂贵动捕设备也能通过摄像头捕捉关键点信息达到不错效果。 AI 数字人类型和应用场景: 1. 二维/三维虚拟人:用于游戏、IP 品牌(柳夜熙)、内容创作等。 2. 真人形象数字人:用于直播卖货,营销/投流广告视频录制、语言学习等。 AI 数字人的价值: 1. 代替人说话,提升表达和营销效率,如真人无法 24 小时直播,数字人可以。 2. 创造真实世界无法完成的对话或交流。 AI 数字人面临的问题: 1. 平台限制:数字人水平参差不齐,平台担心直播观感,有一定打压限制,如抖音出台标准,微信视频号容忍度更低,人工检查封号。 2. 技术限制:形象只是皮囊,智能水平和未来想象空间依赖大模型技术提升。 3. 需求限制:直播带货算落地场景,但不刚需,更多是体验新鲜感。 4. 伦理/法律限制:声音、影像版权等,如换脸、数字永生等。
2025-03-06
怎么创建属于自己的数字人
以下是创建属于自己的数字人的方法: 1. 利用剪映生成数字人: 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。 软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,剪映会生成对应音视频并添加到轨道中。 左下角会提示渲染完成时间,可点击预览按钮查看效果。 2. 增加背景图片: 删除先前导入的文本内容。 点击左上角“媒体”菜单,“导入”按钮选择本地图片上传。 点击图片右下角加号将图片添加到视频轨道(会覆盖数字人)。 点击轨道最右侧竖线向右拖拽,直到与视频对齐。 在显示区域拖动背景图的角将图片放大到适合尺寸,并将数字人拖动到合适位置。 3. 增加字幕: 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 4. 数字人“私有化”(换脸): 准备谷歌账号(可在淘宝或“”购买)。 第一步:打开谷歌浏览器,点击链接 https://github.com/facefusion/facefusioncolab 并点击 open colab 进到程序主要运行界面,在右上角点击“代码执行程序”选择“全部运行”。 第二步:点击“source”上传自己的照片和“target”上传之前的剪映数字人视频,保持默认参数,点击“START”生成。 第三步:等待专属数字人视频出炉。 有关数字人使用上的问题,欢迎在底部评论区留言交流。同时如果对数字人课程感兴趣,欢迎查看通往 AGI 之路 X AI 沃茨的《克隆你自己》课程: 课程内容: 在线观看第一节:https://www.bilibili.com/video/BV1yw411E7Rt/?spm_id_from=333.999.0.0
2025-03-06
如何生成数字人和自己的语音模板?
以下是生成数字人和自己语音模板的方法: 1. 生成数字人: 在剪映右侧窗口顶部,打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。软件会播放数字人的声音,可判断是否需要,点击右下角“添加数字人”将其添加到当前视频中,剪映会生成对应音视频并添加到轨道中,左下角会提示渲染完成时间,可点击预览查看效果。 在显示区域,可拖动背景图的角将其放大到适合尺寸,覆盖视频窗口,并将数字人拖动到合适位置。 点击文本智能字幕识别字幕开始识别,软件会自动将文字智能分段形成字幕。完成后点击右上角“导出”按钮导出视频备用。 2. 生成自己的语音模板: 对于数字人口播配音,只需输入口播文案,选择期望生成的数字人形象及目标语言,即可生成数字人口播视频。操作指引为:输入口播文案 选择目标语言 选择数字人角色 选择输出类型 点击开始生成。 对于音频合成数字人,只需上传音频文件,即可基于音频合成对应的数字人视频,工具支持使用 100+数字人模板。操作指引为:上传音频文件 选择数字人角色 选择输出类型 点击开始生成。需注意音频文件支持 MP3 和 WAV 格式,文件大小上限 5M。
2025-03-05
自制数字人用什么工具
以下是一些自制数字人的工具和方法: 剪映: 打开“数字人”选项,选取免费且适合的数字人形象,如“婉婉青春”。 可根据提供的内容生成对应音视频,并添加到当前视频中。 能为数字人增加背景图片,如通过“媒体”菜单导入图片。 支持增加字幕,点击文本智能字幕识别字幕,软件会自动将文字智能分段并形成字幕。 Heygen:可用于制作数字人。 按照上述步骤操作,即可完成数字人视频的制作。点击右上角的“导出”按钮,可导出视频以作备用。如果希望数字人换成自己希望的面孔,可能需要用其他工具来进行换脸。
2025-03-05