Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我指的是要用我的音色翻唱歌曲 用AI来克隆 推荐不错的吧

Answer

以下是为您推荐的关于用 AI 克隆音色翻唱歌曲的相关内容:

  • ElevenLabs 推出了全自动化的 AI 配音或视频翻译工具。您只需上传视频或粘贴视频链接,它能在几十秒到几分钟内将视频翻译成 29 种语言,还能克隆原视频中的声音进行配音。群友瑞华测试发现,模仿豆包的音色读约 20 个字的句子,5 秒就能生成非常相似的音色,之后可用自己的声音读生成的文字内容。详情可参考:https://mp.weixin.qq.com/s/nHIPaq4evPbvSQS1ctYZrA 剪映也有新的声音克隆功能,卡兹克做了对比,效果不错。
  • Stuart:免费 AI 真人语音入门 GPT-SoVITS + Bert-VITS2 。一开始只是字生成语音并能选不同音色,音色基于网络红人训练,与对应的网络红人非常相像,也可自己训练,参考:GPT-SoVITS 实现声音克隆 但真正使用时会发现只改音色不够用,因为真正说话或配音时有口头禅、重音、停顿等。
  • 一些提供 AI Mastering 的网站列表:
    • https://www.landr.com/online-audio-mastering/ (收费)
    • https://emastered.com/ (收费)
    • https://app.kits.ai/ai-mastering (收费,推荐,除母带处理,还有分轨、替换人声、人声克隆等功能)
    • https://app.bakuage.com/ (免费!强烈推荐,本文主角!正常情况下不需要魔法,为保证流畅,建议打开魔法)
Content generated by AI large model, please carefully verify (powered by aily)

References

声音克隆合集

ElevenLabs推出一个全自动化的AI配音或视频翻译工具。你只需要上传视频或者粘贴视频链接,这个工具就能全自动的在几十秒到几分钟内将你的视频翻译成29种语言。更牛P的是直接克隆原视频里面的声音,来给你配音。群友瑞華测试:另外刚才有群友试了下豆包的音色模仿,读了大概20个字的句子,5s就可以生成非常像的音色,之后就可以用你自己的声音读生成的文字内容了。声音音色的模仿非常像了https://mp.weixin.qq.com/s/nHIPaq4evPbvSQS1ctYZrA剪映也出了新的声音克隆功能,卡兹克做了对比,效果不错

Stuart:免费 AI 真人语音入门: GPT-SoVITS + Bert-VITS2

一开始会感觉很简单,就只是字生成语音,能选的也就是不同的音色。音色因为基于网络红人训练,因此生成的语音音色会和对应的网络红人非常相像。只要选择和自己需要非常接近的音色即可。如果没有接近的音色,也可以自己训练一个,参考WaytoAGI的知识库:[GPT-SoVITS实现声音克隆](https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg?from=from_copylink)但是真正准备开始用就会发现,只改音色不够用了。😓我们真正说话,或者配音的时候,通常是边思考边说话,因此经常带着一些口头禅,类似“嗯”,“啊”,甚至更离谱的“m3?” 😂说话过程中有些重音,停顿和一句手写语句也不全相同。

如何让自己的歌曲发布时更“好听”

本文所谓的“好听”,是指将歌曲用AI Mastering进行母带处理大幅提升听感,不是什么新鲜技术,但是应该很多人是不知道的,做母带处理的工具很多,有兴趣深入专业学习的请自行百度,本文不做无关科普。一些提供AI Mastering的网站列表:https://www.landr.com/online-audio-mastering/(收费)https://emastered.com/(收费)https://app.kits.ai/ai-mastering(收费,推荐,除了母带处理,还有分轨、替换人声、人声克隆等功能)https://app.bakuage.com/(免费!强烈推荐,本文主角!)本文推荐一个免费的提供AI MASTERING的网站,正常情况下不需要魔法,但是为了保证流畅,建议打开魔法。

Others are asking
AI如何自动定制贴纸
以下是关于 AI 自动定制贴纸的相关信息: 扎克伯格在上周年度 Connect 会议上宣布推出集成在应用里的 AI 贴纸功能。此功能可以轻松地为聊天和故事生成自定义贴纸,使用 Llama 2 的技术和 Emu 图像生成基础模型,能够在几秒钟内将您的文本提示变成多个独特的高质量贴纸。 这项新功能将于下个月在 WhatsApp、Messenger、Instagram 和 Facebook Stories 中向部分英语用户推出。
2025-03-06
AI自动定制贴纸
以下是关于 AI 自动定制贴纸的相关信息: 扎克伯格在上周年度 Connect 会议上宣布推出集成在应用里的一系列 AI 功能,其中包括 AI 贴纸。该功能可以轻松地为聊天和故事生成自定义贴纸,使用 Llama 2 的技术和 Emu 图像生成基础模型,能够在几秒钟内将您的文本提示变成多个独特的高质量贴纸。这项新功能将于下个月在 WhatsApp、Messenger、Instagram 和 Facebook Stories 中向部分英语用户推出。
2025-03-06
什么是AI AGENT
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,心灵社会理论认为,智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,从低层次的感知和反应到高层次的规划和决策,每个层次由多个 Agent 负责。每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务,如视觉处理、语言理解、运动控制等。智能不是集中在单一的核心处理单元,而是通过多个相互关联的 Agent 共同实现。这种分布式智能能够提高系统的灵活性和鲁棒性,应对复杂和多变的环境。同时,在《心灵社会》中,还存在专家 Agent(拥有特定领域知识和技能,负责处理复杂的任务和解决特定问题)、管理 Agent(协调和控制其他 Agent 的活动,确保整体系统协调一致地运行)、学习 Agent(通过经验和交互,不断调整和优化自身行为,提高系统在不断变化环境中的适应能力)。从达特茅斯会议开始讨论人工智能(Artificial Intelligence),到马文·明斯基引入“Agent”概念,往后,我们都将其称之为 AI Agent。
2025-03-06
教我如何使用剪辑视频ai
以下是使用剪辑视频 AI 的方法: 1. 准备视频内容: 先准备一段视频中播放的内容文字,内容可以是产品介绍、课程讲解、游戏攻略等。也可以利用 AI 生成这段文字。 2. 制作视频: 使用剪映 App 进行简单处理。电脑端打开剪映 App,点击“开始创作”。 选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号,为视频添加一个文字内容的轨道。 在界面右侧将准备好的文字内容替换默认文本内容,这将为数字人提供语音播放的内容以及生成相对应的口型。 3. 视频转绘处理(使用 Topaz Video AI 插件): 解压对应文件,推荐使用绿色版。右键管理员运行 VideoAIportable.exe 文件。 导入处理好的视频,查看主界面,左边是原视频,右边是待处理视频,下面是对应的视频轨道。 右边部分是对视频处理的方式,预设部分包括放大视频、提升画质、提升帧率等。稳定 AI 模式选择完整帧,强度在 60 左右,抖动开启,次数选择 2 保持默认不变。 4. 配音处理: 把鼠标移动到每个视频片段的右下角的蓝色“+”号,点击或拖拽将片段添加到剪映编辑器的轨道里。 点击剪映电脑版最上面的菜单栏“音频”。 音频导入包括直接导入音频文件(如 MP3 格式),支持视频转音频,还可以通过复制抖音视频的分享链接来获取音乐。
2025-03-06
现在国内最强大的ai是什么
目前国内较为强大的 AI 模型有: 智谱推出的 GLM 系列,一直是国内能力较好的模型之一。 MiniMax 推出的基于 MoE 架构的新模型,以及“星野”这个目前国内较成功的 AI 陪聊 APP。 月之暗面在长 Token 能力和记忆力方面表现可圈可点。 百度的“文心 4.0”是当前国内能力较好的模型之一。 即将发布的阿里的“通义千问”。 需要注意的是,在 2023 年官宣 AI 大模型的公司众多,其中不乏蹭流量的。从产品层面看,2C 端真正出圈的“妙鸭相机”也只是昙花一现。大多数消费者对 AI 产品的态度是“猎奇”而非刚需。在 2B 行业中,大模型目前还是“纯技术投入”,对于收入撬动非常有限。另外,国内在硬件层上仍存在卡脖子问题,目前国内仍然没有芯片可以胜任大模型训练,不过在推理上已经开始有 Nvidia 的替代产品逐渐出现。同时,中国的一些模型如由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得了优异的成绩,尤其在数学和编程方面表现出色,且各有优势。
2025-03-06
现在国内最强大的ai是什么
目前国内较为强大的 AI 模型有: 智谱推出的 GLM 系列,一直是国内能力较好的模型之一。 MiniMax 推出的采用 MoE 架构的新模型,以及“星野”这个目前国内较成功的 AI 陪聊 APP。 月之暗面在长 Token 能力和记忆力方面表现可圈可点。 百度的“文心 4.0”是当前国内能力较好的模型之一。 即将发布的阿里的“通义千问”。 同时,由 DeepSeek、零一万物、知谱 AI 和阿里巴巴开发的模型在 LMSYS 排行榜上取得了优异的成绩,尤其在数学和编程方面表现出色。中国的一些模型在某些方面能与美国的前沿模型竞争,并且更注重计算效率和数据集建设来弥补资源上的不足。但总体而言,国内最领先的模型水平大概在准 ChatGPT3.5 的水平,和 GPT4 还有不小差距。
2025-03-06
克隆声音
以下是关于克隆声音的相关内容: 开源的数字人组合方案中,克隆声音的步骤如下: 1. 先剪出音频,可使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits(https://waytoagi.feishu.cn/wiki/SVyUwotn7itV1wkawZCc7FEEnGg )克隆声音,做出文案的音频。 2. 使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。产品可参考 https://synclabs.so/ 。 在剪映中克隆声音的步骤: 1. 打开剪映,点击左上角菜单——文本,从默认文本开始,在右边文本框输入文字。 2. 输入文字后,点击上面的菜单栏——朗读,会出现克隆音色和文本朗读两个按钮。 3. 克隆音色步骤:点击克隆音色——点击克隆。如果使用电脑版演示,可能会提示未检测到麦克风,手机版则可直接点击下面的按钮开始录制。 4. 文本朗读:直接把输入的文本转换成剪映系统自带的各种成品音色,选择合适的音色,点击开始朗读即可生成。最后别忘了删除输入的文本。 另外还有配音工具 DubbingX 。
2025-03-04
声音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用方法: 特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出的声音更接近原声且自然。 跨语言支持:支持英语、日语和中文等不同语言的推理。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,方便初学者创建训练数据集和模型。 适用于不同操作系统:可在包括 Windows 在内的多种操作系统上安装和运行。 提供预训练模型:可直接下载使用。 使用: 开源数字人组合方案中,第一步先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或 GPTSoVITS 克隆声音,做出文案的音频。 前置数据获取处理时,选择音频并切割,有噪音时进行降噪处理,完成降噪后开启离线 ASR。 在 GPTSowitsTTS 中,进行训练集格式化,包括微调训练(开启 SoVITS 训练和 GPT 训练)和推理(开始推理、刷新模型、选择微调后的模型),成功后会出现新的 URL,表示声音微调完毕。 可以实现跨多语种语言的声音复刻,例如 AIyoyo 普通话和粤语版的《满江红》。 GitHub 地址: 视频教程: 基础 wav2lip+高清修复整合包下载地址: 相关产品:
2025-02-25
声音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用方法: 特点: 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且自然。 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用: 开源数字人组合方案中,第一步先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits 克隆声音,做出文案的音频。第二步使用 wav2lip 整合包,导入视频和音频,对口型得到视频。 GPTSoVITS 实现声音克隆的具体步骤: 前置数据获取处理:选择音频,开启切割;有噪音时,进行降噪处理;降噪处理完成,开启离线 ASR。 GPTSowitsTTS:训练集格式化,开启一键三连并耐心等待;微调训练,开启 SoVITS 训练和 GPT 训练;推理,开始推理 刷新模型 选择微调后的模型 yoyo。成功后会出现新的 URL,说明自己的声音微调完毕。 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音,如 AIyoyo 普通话 满江红、AIyoyo 粤语版 满江红。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 产品:https://synclabs.so/
2025-02-25
语音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和使用步骤: 特点: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且更自然。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 提供预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用步骤: 1. 前置数据获取处理: 选择音频,开启切割。 有噪音时,进行降噪处理。 降噪处理完成,开启离线 ASR。 2. GPTSowitsTTS: 训练集格式化:开启一键三连,耐心等待。 微调训练:开启 SoVITS 训练和 GPT 训练。 推理:开始推理 刷新模型 选择微调后的模型 yoyo。 3. 声音复刻:开启声音复刻之旅,可实现跨多语种语言的声音。 相关资源: GitHub:https://github.com/RVCBoss/GPTSoVITS 视频教程:https://bilibili.com/video/BV12g4y1m7Uw/ 注册 colab 并启动准备:点击进入按照步骤注册即可 https://colab.research.google.com/scrollTo=Wf5KrEb6vrkR&uniqifier=2 ,新建笔记本,运行脚本启动 GPTSo VITS,整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段运行; https://colab.research.google.com/drive/1Z4p4NTR7GYlQTn_MdMen9XgulV0CHza?usp=sharing 。 实践的样本: AIyoyo 普通话 满江红 AIyoyo 粤语版 满江红
2025-02-25
声音克隆
GPTSoVITS 是一个用于声音克隆和文本到语音转换的开源 Python RAG 框架,具有以下特点和优势: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声且自然。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 使用方法: 1. 开源的数字人组合方案中,第一步先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits 克隆声音,做出文案的音频。 2. 第二步使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址为 https://github.com/Rudrabha/Wav2Lip 。 在进行 GPTSoVITS 声音克隆时: 1. 前置数据获取处理:选择音频,开启切割。有噪音时,进行降噪处理。降噪处理完成,开启离线 ASR。 2. GPTSowitsTTS:训练集格式化时开启一键三连,耐心等待。微调训练时开启 SoVITS 训练和 GPT 训练。推理时开始推理,刷新模型,选择微调后的模型。成功时会出现新的 URL,说明声音微调完毕。 3. 声音复刻:可以实现跨多语种语言的声音,例如 AIyoyo 普通话满江红(https://drive.weixin.qq.com/s?k=AJMA1Qc4AAwsRaRfHrAQ8AbQYrAGo)。 GitHub 地址: 视频教程:
2025-02-23
中文语音克隆比较强的有哪些
以下是一些中文语音克隆能力较强的产品: XiaoHu.AI:通过 250,000 小时的中英双语数据训练,仅需 15 秒的声音即可完美克隆,包括音色和情感。基于 LLaMA 模型,支持从文本生成语音,或基于语音提示生成目标语音(保留情感特征)。参数规模有 Llasa1B(轻量级,适合资源受限硬件部署,链接:https://huggingface.co/HKUSTAudio/Llasa1B )和 Llasa3B(更高性能,提供更复杂的语音生成,链接:https://huggingface.co/HKUSTAudio/Llasa3B )。详细介绍:https://www.xiaohu.ai/c/a066c4/llasattsllama3233827b03e5f44a989bf29c06d43d11ce 。 开源产品: GPTSoVITS:https://github.com/RVCBoss/GPTSoVITS ,对中、英、日语言支持良好,需要 10 分钟左右干素材,瞬时 clone 功能未开放。 OpenVoice:https://github.com/myshellai/OpenVoice ,对中文支持较好,主打瞬时 clone,发展势头良好,一个月前测试时中文声音 clone 有英语味道。 商业产品: ElevenLab:https://elevenlabs.io ,支持最多语言种类,支持瞬时 clone,综合效果最好。 Reecho:https://reecho.ai ,中国团队,支持长音频和瞬时声音 clone,据说与火山引擎的声音 clone 技术同源。 自得语音:https://zideai.com ,中国团队,支持瞬时声音 clone 和声音定制,尚未测试。
2025-02-11
现在AI领域做语音模型比较好的有哪几家?音色复刻做的比较好的有哪些
在 AI 领域,做语音模型较好的有阿里,其 CosyVoice 语音合成模型有以下特点: 精细控制:能生成符合性别、年龄和个性特征的声音。 自然模拟:可模拟笑声、咳嗽和呼吸等人类语音自然特征。 情感和风格:能够为声音添加情感和风格,更具表现力。 GitHub 链接:https://github.com/FunAudioLLM/CosyVoice 相关链接:https://x.com/imxiaohu/status/1818942399705710700 。但关于音色复刻做的比较好的,上述信息中未明确提及。
2025-01-19
我想有一个模仿名人的音色。
如果您想模仿名人的音色,一开始可能会觉得比较简单,只是字生成语音并选择不同的音色。音色通常基于网络红人训练,生成的语音音色会和对应的网络红人非常相像。您只要选择和自己需要非常接近的音色即可。如果没有接近的音色,也可以自己训练一个,参考 WaytoAGI 的知识库:。但真正准备开始用就会发现,只改音色可能不够用。我们真正说话或配音时,通常是边思考边说,因此会带着一些口头禅,如“嗯”“啊”,甚至更特别的“m3?”,说话过程中会有重音、停顿,且一句手写语句也不全相同。
2025-01-15
集合视频翻译和音色克隆,照片说话功能为一体的平台,ViiTorai
很抱歉,目前没有关于“ViiTorai”这个集合视频翻译、音色克隆和照片说话功能为一体的平台的相关信息。
2025-01-12
克隆音色
以下是一些关于克隆音色的相关信息: 产品推荐: PlayHT:https://play.ht/studio/ ,包含预设音色,可免费克隆一个音色,若想生成多个,删除上一个音色即可做新的。 Elevenlabs:https://elevenlabs.io/app ,包含预设音色,新用户 1 美元开通一个月会员,可使用克隆音色。 魔搭社区:https://www.modelscope.cn/home ,是一个模型开源社区及创新平台,由阿里巴巴通义实验室联合 CCF 开源发展委员会发起,包含各种声音模型,有开发经验的朋友可使用。 Dubbingx:https://dubbingx.com/ ,免费克隆音色,有桌面版,Mac、Window 均可用。 魔音工坊:https://www.moyin.com/ 对口型相关: Runway:静态图片+音频文件,可生成对口型视频;动态视频+音频文件,可生成对口型视频,但需要消耗 20 点。 Pika:静态图片+音频文件,可生成对口型视频。 其他: 剪映:不能使用预录制的音频,只能现场朗读随机提供的文字材料收集音色信息,1 积分=2 个字,消耗积分生成配音,会员每个月赠送 1200 积分。 GPTSoVITS:开源 AI 克隆音色项目,部署难度较高,但是效果很好,完整的教程和测评请查看原作者主页:https://space.bilibili.com/5760446 。 ElevenLabs 推出全自动化的 AI 配音或视频翻译工具,上传视频或粘贴视频链接,能全自动在几十秒到几分钟内将视频翻译成 29 种语言,还能克隆原视频里面的声音来配音。群友测试豆包的音色模仿,读大概 20 个字的句子,5 秒就可生成非常像的音色,之后可用自己的声音读生成的文字内容,声音音色模仿非常像。
2024-11-19
怎么文字转语音,用自己的音色
要实现文字转语音并使用自己的音色,以下是一些方法和相关信息: ChatTTS 增强版整合包:当文本内容很多时,可以勾选文本切割来处理,默认五十字符切割,还能将音频片段合并为一整段音频。切割的音频片段也支持增强处理。保存后的音频文件结构清晰,包括合成的一整段音频、增强处理后的整段音频、切分的音频片段等。该版本增加了批量处理功能,可上传按句换行格式的 TXT 文本。音色固定,可通过点击随机按钮多尝试找到满意音色,并将设置和音色种子保存到配置文件方便下次使用。 ElevenLabs 工具:能全自动将视频翻译成 29 种语言,更能克隆原视频里的声音来配音。 GPTSoVITS + BertVITS2:一开始可选不同音色,基于网络红人训练,音色与网络红人相像。若没有接近的音色,可自己训练,参考 WaytoAGI 的知识库: 。但实际使用中只改音色可能不够,如说话时的口头禅、重音、停顿等。
2024-11-06
克隆音色
以下是一些关于克隆音色的相关信息: 产品推荐: PlayHT:https://play.ht/studio/ ,包含预设音色,可免费克隆一个音色,若想生成多个,删除上一个音色即可做新的。 Elevenlabs:https://elevenlabs.io/app ,包含预设音色,新用户 1 美元开通一个月会员,可使用克隆音色。 魔搭社区:https://www.modelscope.cn/home ,是一个模型开源社区及创新平台,由阿里巴巴通义实验室联合 CCF 开源发展委员会发起,包含各种声音模型,有开发经验的朋友可使用。 Dubbingx:https://dubbingx.com/ ,免费克隆音色,有桌面版,Mac、Window 均可用。 魔音工坊:https://www.moyin.com/ 对口型相关: Runway:静态图片+音频文件,可生成对口型视频;动态视频+音频文件,可生成对口型视频,但需要消耗 20 点。 Pika:静态图片+音频文件,可生成对口型视频。 其他: 剪映:不能使用预录制的音频,只能现场朗读随机提供的文字材料收集音色信息,1 积分=2 个字,消耗积分生成配音,会员每个月赠送 1200 积分。 GPTSoVITS:开源 AI 克隆音色项目,部署难度较高,但效果很好,完整的教程和测评请查看:https://space.bilibili.com/5760446 。 Uberduck:克隆效果怪怪的,附官方使用指南:https://docs.uberduck.ai/guides/gettingstarted 。 ElevenLabs 推出全自动化的 AI 配音或视频翻译工具,可上传视频或粘贴视频链接,能全自动将视频翻译成 29 种语言,并克隆原视频声音。 豆包的音色模仿,读约 20 个字的句子,5 秒可生成相似音色,之后可用自己声音读生成的文字内容。 剪映也有新的声音克隆功能,效果不错。
2024-10-21