直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

chat tts

回答

以下是关于 ChatTTS 的详细介绍:

  • 在作者提供的样例中,中英文混合和语气停顿效果令人印象深刻。常调整的参数主要是 Seed,不同的 Seed 对应不同的声音,目前较火的 Seed 为 2222。
  • 线上体验下来,ChatTTS 在功能上少了微调、长文本等模块。但在 B 站有一个整合包,增加了音质增强、批量处理、长文本切分等功能,并制作了 Mac 和 Windows 版本。安装前需注意显卡限制,对于 30s 的音频,需要 4G 的显存。Mac 版本默认绑定 8080 窗口,推出应用后需执行相关操作避免端口占用。
  • 增强版整合包的使用:首先可试试增强音质,输入文本准备生成时,可勾选音频增强和降噪进一步处理。文本内容很多时,可勾选文本切割处理,默认为五十字符切割,还能将音频片段合并为一整段音频,切割的音频片段也支持增强处理。保存后的音频文件结构清晰,包括 concatenated Audio(合成的一整段音频)、Enhanced Audio(增强处理后的整段音频)、Audio clip 文件夹(切分的音频片段,Enhanced 开头的是增强处理的音频片段,不带 Enhanced 是普通音频片段)。该版本还增加了批量处理功能,勾选后可上传按每句换行格式的 TXT 文本。最后是音色固定,可通过点击随机按钮多尝试找到满意音色,并保存设置和音色种子到配置文件方便下次使用。
  • ChatTTS 的特点:
    • 针对对话式任务进行了优化,实现自然流畅的语音合成,同时支持多说话人。
    • 能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
    • 在韵律方面超越了大部分开源 TTS 模型,并提供预训练模型。
    • 存在自回归模型稳定性不足的问题,可能出现声音突然变化或音质变差,可多次尝试寻找更好的音频效果。
    • 目前发布的模型版本中,情感控制仅限于笑声([laugh])以及一些声音中断([uv_break],[lbreak]),作者计划在未来的版本中开源更多情感控制功能。
  • 玩法:几天前运行 ChatTTS 玩法复杂,需在本地和云端安装环境。如今有在线网站(https://chattts.com/)和本地增强整合包。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

卡尔:终于蹲到ChatTTS增强版整合包,AI视频配角们有了自己的声音~

在作者提供的样例中,中英文混合和语气停顿效果令人印象深刻。这里我用这两个例子教大家如何使用。输入文本1📕这些元素其实是glam rock,然后加这种bling的感觉.我觉得像这个衣服有一些jacket,比如说那个oversized的那个丹宁的jacket,我觉得我是可以offduty的model.除了文字本身和控制符号外,常调整的参数主要是Seed,也就是种子数。不同的Seed对应不同的声音。目前还没有看到有人收集好听的Seed列表,不过有一个2222比较火。输入文本2📕那chatTTS不仅能够生成自然流畅的语音[uv_break],还能控制[laugh]笑声[laugh],[uv_break]停顿啊和语气词啊等副语言现象[uv_break]。其这个韵律呢超越了许多开源模型。线上体验下来,ChatTTS在功能上少了微调、长文本等模块,现阶段略显不足。不过,幸运的是我在B站找到了一个整合包,增加了音质增强、批量处理、长文本切分等功能,并制作了Mac和Windows版本。安装前说下显卡限制:对于30s的音频,需要4G的显存。整合包也存在需要优化的点,Mac版本默认绑定8080窗口,在你推出应用后,可以执行“lsof - i:8080”得到程序的PID后kill程序,不然下一次启动会设置端口被占用。

卡尔:终于蹲到ChatTTS增强版整合包,AI视频配角们有了自己的声音~

首先试试增强音质,在我们输入文本准备生成时,可以勾选下面的音频增强和降噪进行进一步处理。增强后的音频会更加清晰减少的噪音,但会增加处理时长⏰其次,当文本内容很多时,可以勾选文本切割来进行处理,默认为五十字符进行切割,还可以将音频片段合并为一整段音频,切割的音频片段也支持增强处理保存后的音频文件结构相当清晰,concatenated Audio是合成的一整段音频,Enhanced Audio是增强处理后的整段音频Audio clip文件夹中是切分的音频片段。Enhanced开头的就是增强处理的音频片段,不带Enhanced就是生成的普通的音频片段。该个版本还增加了批量处理功能,勾选后可以上传一个TXT文本,TXT文本需要按照每句换行的格式。最后就是音色固定,前面提到这个项目不同的音频种子生成的人物说话音色会不一样。我们可以点击随机按钮,多尝试几次,找到自己满意的音色后,可以将设置和音色种子保存到配置文件中,方便下次使用。ChatTTS刚放出来的时候,我很惊讶于它的效果,随后就重新思考,基于目前只能随机音色的情况,它在AI配音领域会有什么样的应用呢?本来是打算等到它后面提供微调版本,再给大家出一篇教程来复刻名人声音。

卡尔:终于蹲到ChatTTS增强版整合包,AI视频配角们有了自己的声音~

1.✅对话式TTS:ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。2.✅细粒度控制:该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。3.✅更好的韵律:ChatTTS在韵律方面超越了大部分开源TTS模型,并提供预训练模型。4.❌模型稳定性:自回归模型存在稳定性不足的问题,可能会出现声音突然变成其他人的声音,或者音质突然变差,可以通过多次尝试来寻找更好的音频效果。5.⭕️情感控制:目前发布的模型版本中,情感控制仅限于笑声([laugh])以及一些声音中断([uv_break],[lbreak])。作者计划在未来的版本中开源更多情感控制的功能。几天前,我们还需要在本地和云端安装环境才能运行ChatTTS,玩法较为复杂。如今,陆续出现了在线网站和本地增强整合包。这里给大家介绍一下玩法,首先是网站:我们直接访问https://chattts.com/

其他人在问
我是新手AI使用者,想使用chatgpt,操作步骤是什么
以下是新手使用 ChatGPT 的操作步骤: 1. 获得 API Key(扣费凭证): 以 OpenAI API 为例,您可以在这个页面找到 API Key:https://platform.openai.com/apikeys 。 打开后,点击「Create new secret key」即可获取。 请注意:通常,您需要绑定支付方式,才可以获取有效 Key。 2. 获得 API 使用的示例代码: 以 OpenAI API 为例,您可以在 Playground 这个页面获取 API 调用的示例代码:https://platform.openai.com/playground 。 并且可以将您和 GPT 的对话,转换成代码。 注意,这里有两个值可以定义,一个是: SYSTEM:对应 ChatGPT 里的 Instructions,用来定义这个 Bot 的功能/特点。 USER:对应 ChatGPT 里,用户发出的信息。 这里,我将 SYSTEM 定义成了缩略信息助手,而在 USER 中输入了文章内容。 运行后,结果很令人满意。 点击右上方 View Code,获取生成这一内容的示例代码。 3. 再问 ChatGPT:顺着之前的对话,让 ChatGPT 帮我们继续写代码。 4. 对于在 Colab 中抓取网页正文内容,如抓取 https://mp.weixin.qq.com/s/KUnXlDlgRs_6D5RFpQbnQ 的正文内容: 在 Colab 中抓取网页的正文内容,您可以使用 Python 的 requests 库来获取网页的 HTML 源代码,然后使用 BeautifulSoup 库来解析 HTML 并提取所需的正文部分。 首先,确保您已经在您的 Colab 环境中安装了 beautifulsoup4 和 requests 库。如果没有安装,您可以使用以下命令安装: 然后,使用以下代码抓取并解析指定的网页内容: 这段代码会打印出您提供的微信公众号文章的正文内容。请注意,由于网页的结构随时可能发生变化,所以提取正文内容的部分(即 soup.find 那一行)可能需要根据实际的 HTML 结构进行调整。如果文章有反爬虫机制,可能还需要进一步的处理,比如设置请求头模拟浏览器访问等。 运行您的代码: 先复制第一段:!pip install beautifulsoup4 requests ,运行后得到结果。 接下来,点击左上方「+代码」按钮,新建一个新的代码块。 最后,复制后面的代码,并运行,获得结果。
2024-11-23
如何注册chatGPT
以下是注册 ChatGPT 的详细步骤: 1. 访问官方网站:打开浏览器,输入。如有账号直接登录,没有的话点击“注册”。 2. 继续使用 Google 登录。 3. 跳转到 OpenAI 的网页,填写您的名字跟出生日期(要确保年龄在 18 岁以上),点击 Agree(同意)。 4. 点击“好的,开始吧”进入 chatgpt 主页面,即可免费使用 chatgpt3.5 了。 此外,如果您还没有谷歌账号,注册谷歌账号的步骤如下: 1. 电脑打开谷歌网站:https://accounts.google.com/,点击创建账号。 2. 选择个人用途。 3. 填写姓名(避免中文、拼音,尽量用英文名字,姓可以不填)。 4. 填写年龄性别(最好大于 18 岁)。 5. 填写账号名称。 6. 设置密码(大小写字母+数字)。 7. 手机短信验证,有一定概率跳到接收短信验证,这里填国内的号码就可以,填写验证码。 8. 填写辅助邮箱(可用国内邮箱)。 9. 确认账户信息,点击下一步。 10. 拉到最底部,点我同意。 11. 点击确认开启个性化设置后即可完成注册。 注册 ChatGPT 账号时: 1. 打开 ChatGPT 的官网,官网网站:https://chat.openai.com/,点击注册按钮。 2. 点击用 Google 账号登录。 3. 输入刚注册的谷歌邮箱,点击下一步。 4. 输入密码,点击下一步。 5. 确认用谷歌账号作为 ChatGPT 账号登录。 6. 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(要确保年龄在 18 岁以上),点击 Agr。 7. 完成注册。
2024-11-22
订阅chatgpt
以下是关于注册、安装、订阅 ChatGPT 的详细内容: 引言: ChatGPT 是一种基于 GPT(生成式预训练变换器)架构的人工智能模型,由 OpenAI 开发。它是目前最先进的人工智能模型,是一种自然语言处理(NLP)工具,能够理解和生成接近人类水平的文本。目前 ChatGPT 官网有两个版本,一个是 GPT3.5(免费),一个是 GPT4。GPT3.5 智能程度不如 GPT4,且无法使用 DALL.E3(AI 画图功能)和 GPTs 商店和高级数据分析等插件。想要使用更多功能更智能的 GPT4,需要升级到 PLUS 套餐,收费标准是 20 美金一个月。此外,GPT4 还有团队版和企业版,功能更多,限制更少,但费用更贵,一般推荐使用 PLUS 套餐。 安卓系统安装、订阅 GPT4 教程: 1. 首先,在注册 ChatGPT 账号之前,先注册一个谷歌账号,因为国外很多软件支持谷歌账号一键登录,注册谷歌账号支持国内手机号码和国内邮箱验证。 2. 目前订阅 PLUS 版本,安卓手机可以使用谷歌支付。具体步骤如下: 打开谷歌商店。 点击“付款和订阅”。 点击“付款方式”。 点击“添加信用卡或借记卡”。 填写信用卡信息,填写后点击保存卡,付款方式就会出现绑定的信用卡。 打开 ChatGPT 手机应用,选择谷歌账号登录。 选择相应账号后,点击打开外部应用。 成功登录 ChatGPT,点 Continue 继续。 点击顶部 get plus 按钮。 点击订阅按钮。 此时会跳出谷歌支付的界面,确定订阅即可。如日后想要取消订阅,可到谷歌商店的账号管理,付款和订阅里面取消。 苹果系统安装、订阅 GPT4 教程: 1. 支付宝购买礼品卡: 来到支付宝首页,在左上角位置选择美国城市,如纽约,在底部位置选择“大牌礼卡低至 9 折”。 选择 App Store。 第一次购买需要绑定美区 ID,按指示绑定即可,绑定后输入要充值的美金金额(在手机端订阅 GPT4 一个月)。 直接用支付宝支付。 根据当天汇率,实际支付的人民币金额会有所不同。 完成付款后点击订单列表。 复制礼品卡号码。 2. 充值到美区 ID: 来到 App Store,点击右上角的人形头像,点击兑换充值卡或代码。 点击手动输入兑换码。 粘贴礼品卡号码,点击兑换。 成功充值到美区 ID 账号。 3. 到 ChatGPT 订阅 Plus: 打开 ChatGPT,用谷歌邮箱登录后点击最上方的 Get Plus。 点击 Upgrade to Plus。 之后会弹出苹果支付页面,确认订阅后每个月将会在美区 ID 账户里扣款,所以如果想保持订阅,每个月需确保账户有足够金额。 如果中途不想继续订阅了,可到订阅列表中取消订阅即可。
2024-11-22
如何注册chatGPT
以下是注册 ChatGPT 的详细步骤: 1. 访问官方网站:打开浏览器,输入。如有账号直接登录,没有的话点击“注册”。 2. 继续使用 Google 登录。 3. 跳转到 OpenAI 的网页,填写您的名字跟出生日期(要确保年龄在 18 岁以上),点击 Agree(同意)。 4. 点击“好的,开始吧”进入 ChatGPT 主页面,即可免费使用 ChatGPT 3.5 了。 另外,如果您还没有谷歌账号,注册谷歌账号的步骤如下: 1. 电脑打开谷歌网站:https://accounts.google.com/,点击创建账号。 2. 选择个人用途。 3. 填写姓名(避免中文、拼音,尽量用英文名字,姓可以不填)。 4. 填写年龄性别(最好大于 18 岁)。 5. 填写账号名称。 6. 设置密码(大小写字母+数字)。 7. 手机短信验证,有一定概率跳到接收短信验证,这里填国内的号码就可以,填写验证码。 8. 填写辅助邮箱(可用国内邮箱)。 9. 确认账户信息,点击下一步。 10. 拉到最底部,点我同意。 11. 点击确认开启个性化设置后即可完成注册。 注册 ChatGPT 账号时: 1. 打开 ChatGPT 的官网,官网网站:https://chat.openai.com/,点击注册按钮。 2. 点击用 Google 账号登录。 3. 输入刚注册的谷歌邮箱,点击下一步。 4. 输入密码,点击下一步。 5. 确认用谷歌账号作为 ChatGPT 账号登录。 6. 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(要确保年龄在 18 岁以上),点击 Agr。 7. 然后就完成注册啦。
2024-11-21
如何注册chatGPT
以下是注册 ChatGPT 的详细步骤: 1. 访问官方网站:打开浏览器,输入。如有账号直接登录,没有的话点击“注册”。 2. 继续使用 Google 登录。 3. 跳转到 OpenAI 的网页,填写您的名字跟出生日期(要确保年龄在 18 岁以上),点击 Agree(同意)。 4. 点击“好的,开始吧”进入 ChatGPT 主页面,即可免费使用 ChatGPT 3.5 了。 另外,如果您还没有谷歌账号,注册谷歌账号的步骤如下: 1. 电脑打开谷歌网站:https://accounts.google.com/,点击创建账号。 2. 选择个人用途。 3. 填写姓名(避免中文、拼音,尽量用英文名字,姓可以不填)。 4. 填写年龄性别(最好大于 18 岁)。 5. 填写账号名称。 6. 设置密码(大小写字母+数字)。 7. 手机短信验证,有一定概率跳到接收短信验证,这里填国内的号码就可以,填写验证码。 8. 填写辅助邮箱(可用国内邮箱)。 9. 确认账户信息,点击下一步。 10. 拉到最底部,点我同意。 11. 点击确认开启个性化设置后即可完成注册。 注册 ChatGPT 账号时: 1. 打开 ChatGPT 的官网,官网网站:https://chat.openai.com/,点击注册按钮。 2. 点击用 Google 账号登录。 3. 输入刚注册的谷歌邮箱,点击下一步。 4. 输入密码,点击下一步。 5. 确认用谷歌账号作为 ChatGPT 账号登录。 6. 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(要确保年龄在 18 岁以上),点击 Agr。 7. 然后就完成注册啦。
2024-11-20
如何注册chatGPT
以下是注册 ChatGPT 的详细步骤: 1. 访问官方网站:打开浏览器,输入。如有账号直接登录,没有的话点击“注册”。 2. 继续使用 Google 登录。 3. 跳转到 OpenAI 的网页,填写您的名字跟出生日期(要确保年龄在 18 岁以上),点击 Agree(同意)。 4. 点击“好的,开始吧”进入 ChatGPT 主页面,此时可以免费使用 ChatGPT 3.5 了。 此外,如果您还没有谷歌账号,注册谷歌账号的步骤如下: 1. 电脑打开谷歌网站:https://accounts.google.com/,点击创建账号。 2. 选择个人用途。 3. 填写姓名(避免中文、拼音,尽量用英文名字,姓可以不填)。 4. 填写年龄性别(最好大于 18 岁)。 5. 填写账号名称。 6. 设置密码(大小写字母+数字)。 7. 手机短信验证,有一定概率跳到接收短信验证,这里填国内的号码就可以,填写验证码。 8. 填写辅助邮箱(可用国内邮箱)。 9. 确认账户信息,点击下一步。 10. 拉到最底部,点我同意。 11. 点击确认开启个性化设置后即可完成注册。 注册 ChatGPT 账号时,还可以按照以下步骤: 1. 打开 ChatGPT 的官网,官网网站:https://chat.openai.com/,点击注册按钮。 2. 点击用 Google 账号登录。 3. 输入刚注册的谷歌邮箱,点击下一步。 4. 输入密码,点击下一步。 5. 确认用谷歌账号作为 ChatGPT 账号登录。 6. 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(要确保年龄在 18 岁以上),点击 Agr。 7. 完成注册,就可以尝试提问了。
2024-11-20
评价tts合成效果有什么通用标准吗
对 TTS 合成效果的评价主要分为主观评价和客观评价。 主观评价是通过人类对语音进行打分,常见的方法包括平均意见得分(MOS)、众包平均意见得分(CMOS)和 ABX 测试。其中 MOS 评测较为宽泛,可测试语音的不同方面,如自然度 MOS 和相似度 MOS。国际电信联盟将 MOS 评测规范化为 ITUT P.800,其中绝对等级评分(ACR)应用广泛,其根据音频级别给出 1 至 5 分的评价标准,分数越大表示语音质量越好,MOS 大于 4 时音质较好,低于 3 则有较大缺陷。但人类评分结果易受干扰,如音频样本呈现形式、有无上下文等。 客观评价是通过计算机自动给出语音音质的评估,在语音合成领域研究较少。客观评价可分为有参考和无参考质量评估,有参考评估方法需要音质优异的参考信号,常见的有 ITUT P.861(MNB)、ITUT P.862(PESQ)、ITUT P.863(POLQA)、STOI 和 BSSEval 等;无参考评估方法不需要参考信号,常见的包括基于信号的 ITUT P.563 和 ANIQUE+、基于参数的 ITUT G.107(EModel),近年来深度学习也应用到无参考质量评估中,如 AutoMOS、QualityNet、NISQA 和 MOSNet 等。 获取平均意见得分时,实验要求获取多样化且数量足够大的音频样本,在具有特定声学特性的设备上进行测评,控制被试遵循同样标准,确保实验环境一致。实验方法有实验室方式和众包两种,实验室方式能稳定保证实验环境,但人力成本高;众包方式易于获得有效评估结果,但无法确保试听条件。
2024-11-20
评价tts合成效果有什么通用标准吗
对 TTS 合成效果的评价主要分为主观评价和客观评价。 主观评价是通过人类对语音进行打分,常见的方法有平均意见得分(MOS)、众包平均意见得分(CMOS)和 ABX 测试。MOS 评测较为灵活,可测试语音的不同方面,如自然度 MOS 和相似度 MOS。国际电信联盟(ITU)将 MOS 评测规范化为 ITUT P.800,其中绝对等级评分(ACR)应用广泛,其根据音频级别给出 1 至 5 分的评价,分数越大表示语音质量越好,MOS 大于 4 时音质较好,低于 3 则有较大缺陷。但人类评分结果受干扰因素多,如音频样本呈现形式、上下文等。 客观评价是通过计算机自动给出语音音质的评估,在语音合成领域研究较少。客观评价可分为有参考和无参考质量评估,有参考评估方法需要音质优异的参考信号,常见的有 ITUT P.861(MNB)、ITUT P.862(PESQ)、ITUT P.863(POLQA)、STOI 和 BSSEval 等;无参考评估方法不需要参考信号,常见的包括基于信号的 ITUT P.563 和 ANIQUE+、基于参数的 ITUT G.107(EModel),近年来深度学习也应用到无参考质量评估中,如 AutoMOS、QualityNet、NISQA 和 MOSNet 等。 获取平均意见得分时,实验要求获取多样化且数量足够大的音频样本,在具有特定声学特性的设备上进行,控制被试遵循同样标准,确保实验环境一致。实验方法有实验室方式和众包,实验室方式能控制测试要素,但人力成本高;众包易于获得评估结果,但无法确保试听条件。
2024-11-20
F5-TTS有相关的文章吗?
上海交通大学开源了 F5TTS 语音合成技术,这是一种完全非自回归的文本到语音系统,通过流匹配与扩散变换器实现。它简化了传统的 TTS 系统设计,不需要复杂的时长模型、文本编码器和音素对齐,而是将文本输入用填充标记填充到与输入语音相同的长度,并利用 ConvNeXt 模型对文本表示进行细化以与语音对齐。 F5TTS 的模型特点包括: 1. 零样本声音克隆。 2. 速度控制(基于总时长)。 3. 可以控制合成语音的情感表现。 4. 长文本合成。 5. 支持中文和英文多语言合成。 6. 在 10 万小时数据上训练。 7. 最重要的是支持商用。 相关链接: 1. 论文: 2. 模型下载: 3. 演示 Demo:https://huggingface.co/spaces/mrfakename/E2F5TTS
2024-11-01
有没有好用的 tts 的 api 推荐啊
以下为您推荐一些好用的 TTS API: 1. 出门问问 Mobvoi: API 官网:https://openapi.mobvoi.com/ 语音合成(TTS)API 地址:https://openapi.mobvoi.com/pages/soundlibrary 语音合成(TTS)操作文档:https://openapi.mobvoi.com/document?name=%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90%EF%BC%88TTS%EF%BC%89 接口请求域名:https://open.mobvoi.com/api/tts/v1 接口请求频率限制:5 次/秒 提供多种方言和风格,满足不同场景需求,实时合成支持 SSML。 2. Eleven Labs:https://elevenlabs.io/ ElevenLabs Prime Voice AI 是一款功能强大且多功能的 AI 语音软件,使创作者和出版商能够生成逼真、高品质的音频。人工智能模型能够高保真地呈现人类语调和语调变化,并能够根据上下文调整表达方式。 3. Speechify:https://speechify.com/ Speechify 是一款人工智能驱动的文本转语音工具,使用户能够将文本转换为音频文件。它可作为 Chrome 扩展、Mac 应用程序、iOS 和 Android 应用程序使用,可用于收听网页、文档、PDF 和有声读物。 4. Azure AI Speech Studio:https://speech.microsoft.com/portal Microsoft Azure Speech Studio 是一套服务,它赋予应用程序能力,让它们能够“听懂、理解并与客户进行对话”。该服务提供了支持 100 多种语言和方言的语音转文本和文本转语音功能。此外,它还提供了自定义的语音模型,这些模型能够适应特定领域的术语、背景噪声以及不同的口音。 5. Voicemaker:https://voicemaker.in/ AI 工具可将文本转换为各种区域语言的语音,并允许您创建自定义语音模型。Voicemaker 易于使用,非常适合为视频制作画外音或帮助视障人士。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-30
tts工具
以下为您推荐一些在线 TTS 工具: 1. Eleven Labs:https://elevenlabs.io/ ,是一款功能强大且多功能的 AI 语音软件,能高保真地呈现人类语调和语调变化,并能根据上下文调整表达方式。 2. Speechify:https://speechify.com/ ,是一款人工智能驱动的文本转语音工具,可作为多种应用程序使用,用于收听网页、文档、PDF 和有声读物。 3. Azure AI Speech Studio:https://speech.microsoft.com/portal ,是一套服务,提供了支持 100 多种语言和方言的语音转文本和文本转语音功能,还提供了自定义的语音模型。 4. Voicemaker:https://voicemaker.in/ ,可将文本转换为各种区域语言的语音,并允许创建自定义语音模型,易于使用,适合为视频制作画外音或帮助视障人士。 此外,还有免费的 AI 真人语音入门工具:GPTSoVITS + BertVITS2。这两个项目均免费且好用,直接找到需要的音色,输入文字,点击“合成语音”生成后就能下载。两个项目提供的在线模型中采用了很多网络红人的语音作为训练集。 在了解 TTS 工具之前,先为您介绍一些语音的基本概念:声波通过空气传播,被麦克风接收,通过采样、量化、编码转换为离散的数字信号,即波形文件。音量、音高和音色是声音的基本属性。 内容由 AI 大模型生成,请仔细甄别。
2024-10-26
开源的,新一代的 tts 框架有哪些?
以下是一些开源的新一代 TTS 框架: 1. GPTSoVITS:这是一个声音克隆和文本到语音转换的开源 Python RAG 框架。只需 1 分钟语音即可训练一个自己的 TTS 模型,5 秒数据就能模仿,1 分钟的声音数据就能训练出高质量的 TTS 模型,完美克隆声音。它完美适配中文,具有零样本 TTS、少量样本训练、易于使用的界面、跨语言支持、适用于不同操作系统、提供预训练模型等特点。 2. ChatTTS:针对对话式任务进行了优化,实现自然流畅的语音合成,同时支持多说话人。能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。在韵律方面超越了大部分开源 TTS 模型,并提供预训练模型,但存在模型稳定性不足的问题。目前发布的模型版本中,情感控制仅限于笑声以及一些声音中断,作者计划在未来的版本中开源更多情感控制的功能。如今陆续出现了在线网站和本地增强整合包。 3. B 站 up“花儿不哭”大佬的开源项目 gptsovits 也被用于节目《马上封喉》的 TTS 中,只需 1 分钟的干声素材就可以实现惊艳的效果,甚至实现了 zeroshot(零样本),但单字和中英文混杂的词句效果还有待提高。
2024-08-23