首页/问答列表/问答详情

项目六语音合成和音乐生成 6.1语音合成基础知识 6.1.1语⾳合成技术的发展历程 6.1.2新语⾳合成技术的优势 6.2语音合成和音乐生成应用场景 6.2.1语⾳合成技术的发展历程应⽤场景 6.2.2 ⾳乐⽣成在旅游⾏业的应⽤ 6.3语音合成和音乐生成的常用工具 6.3.1语音合成的常用工具 6.3.2音乐生成的常用工具请根据以上内容生成思维导图

回答

以下是为您生成的关于语音合成和音乐生成的思维导图：

一、语音合成基础知识

语音合成技术的发展历程
新语音合成技术的优势

二、语音合成和音乐生成应用场景

语音合成技术的发展历程应用场景
音乐生成在旅游行业的应用

三、语音合成和音乐生成的常用工具

语音合成的常用工具
- 11labs（官网：https://elevenlabs.io/）
音乐生成的常用工具
- Manglemoose（新工具名称未公布）
- OpenAI 的 Jukebox（项目地址：https://openai.com/research/jukebox ）

希望这个思维导图对您有所帮助！如果您还有其他需求，请随时告诉我。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

AI 音乐 | 3.4 资讯

链接：https://www.manglemoose.com/en/Manglemoose最近展示了由他们最新开发的音乐生成器制作的视频案例，该工具的名称尚未公布，期待下后续。据了解，Manglemoose集结了五位对媒体音乐和声音设计充满热情的音频技术专家，他们的合作基于各自不同的专业知识，相信这种多元化的才能结合能够将项目提升至新的高度。他们提供从单个配音演员到完整音频包的多种服务，包括现场录音、作曲、声音设计和混音。详情可点击上方链接查看。

前Sora时代我最想做的AI短片——使用Pika、Pixverse、Runway、SVD四大AI视频工具

需要人物表情比较自然的画面我们就会用Pika来生成。总之就是，办法总比困难多，想尽一切招数，解决问题。这里本来可以对应介绍一些视听语言的书，但篇幅实在太长了目前，下次再推荐！第四步，AI声音这次我们尝试使用了一些简短对话的制作。通常在传统影视制作流程里，声音部分的制作会分为现场录音、后期配音、音效音乐制作等多个部分。这里用AI声音来制作对话相当于是后期配音的部分。我们会把中文台词谷歌翻译成英文，但我英语比较拉垮，所以找了非常专业的Azura Ge葛女士进行英文字幕校对与台词润色，形成配音稿。接着使用AI声音软件11labs（官网：https://elevenlabs.io/）进行对白制作，11labs的英文效果比较好，但我们仍然非常头疼地遇到了AI声音没有情绪和情感的问题。跟视频制作类似，需要不断地抽卡（反复生成），因为11labs无法使用语速、情绪调节等控件，我们只能通过标点符号去改变语音效果，比如使用，、……。！等等标点符号，有时会叠加不同标点符号，去试它的语音效果。

XiaoHu.AI日报

? https://x.com/xiaohuggg/status/1763819660779405331?s=204⃣️?OpenAI的音乐生成模型：Jukebox3年前推出，即将发布Jukebox 2基于1.2百万首歌曲的数据集训练能根据歌词、艺术家和流派信息生成音乐和人声歌曲?演示列表：https://soundcloud.com/openai_audio?项目地址：https://openai.com/research/jukebox? https://x.com/xiaohuggg/status/1763775026040590531?s=205⃣️?@CSM_ai：文本、图像或草图转换为3D素材直接应用于游戏中，无需后期处理视频演示了在ROBLOX游戏中的应用?体验地址：https://cube.csm.ai? https://x.com/xiaohuggg/status/1763758877999587757?s=206⃣️?Sailor：东南亚国家定制的语言模型基于Qwen 1.5，覆盖7种语言从0.5B到7B不同大小版本，适应不同需求在SEA语言的多种任务上表现出色?项目：https://sailorllm.github.io? https://x.com/xiaohuggg/status/1763753689108627960?s=20

其他人在问

好用的人声合成AI

2025-03-24

免费语音合成API

以下是关于出门问问语音合成（TTS）API 的相关信息：接口请求域名：https://open.mobvoi.com/api/tts/v1 接口请求频率限制：5 次/秒调用参数及说明：字段名：text 必填：是类型：String 描述：要合成的文本内容，限制为 1000 字符。支持 ssml 标记语言，使用说明见附录 3。字段名：appkey 必填：是类型：String 描述：开发者在 AI 开放平台上申请的 appkey。字段名：signature 必填：是类型：String 描述：签名，通过“appkey+secret+timestamp”进行 md5 加密，得到的 32 位 MD5 值。其中加号也参与 MD5 的计算。每次请求实时计算签名，签名有效期为 10 分钟。字段名：timestamp 必填：是类型：Long 描述：当前时间戳，单位为秒。字段名：speaker 必填：否类型：String 描述：合成音频指定发音人。默认值：cissy_meet。其他发音人传值及计费价格请参考声音商店。字段名：audio_type 必填：否类型：String 描述：合成音频的格式。默认值：mp3。可选值：pcm/mp3/speexwb10/wav。只支持这四种格式中的一种。字段名：speed 必填：否类型：Float 描述：发音人合成的语速，支持小数点后两位。默认值：1.0。可选值：0.5 2.0。字段名：convert 必填：否类型：String 描述：默认值：无。可选值：robot。是否转化为机器声。字段名：rate 必填：否类型：Long 描述：音频采样率。默认值：无，由 speaker 指定默认值。可选值：8000/16000/24000。字段名：volume 必填：否类型：Float 描述：合成音量。默认值：1.0。可选值：0.1 1.0。字段名：pitch 必填：否类型：Float 描述：语调参数，参数小于 0 则语调变低，反之则高。默认值：0。可选值：10 < pitch < 10（streaming 接口不支持）。字段名：symbol_sil 必填：否类型：String 描述：符号停顿时长映射方法（逗号分割）见下方停顿符号映射表。充值后自动开通权限（streaming 接口不支持）。字段名：ignore_limit 必填：否类型：Boolean 描述：默认值：false。可选值：false/true。是否限制字符数，如果设置 true，传输的文本可以超过 1000 字符限制，最大字符数 3000。充值后自动开通权限。出门问问语音合成技术（TTS）可以将任意文本转化为语音，实现让机器和应用张口说话。其可应用于视频 APP 配音解说、小说 App 有声阅读、移动 App 新闻语音播报、智能设备语音提醒、车载导航语音合成的个性化语音播报等场景。该服务提供了普通话、台湾腔、粤语、四川话、东北话等多种方言，数百个发音人，上千种风格，满足不同场景的选择需求。实时合成支持 SSML，语法详见 SSML 标记语言。 HTTP Method：支持 POST 请求。

2025-03-07

如果我想对一首歌填新歌并合成演唱，用哪个AI工具

如果您想对一首歌填新词并合成演唱，可以使用以下 AI 工具： 1. ACE Studio：实操步骤：第一步：准备音频素材。使用干声转换，在软件中分别导入人声干声和伴奏，放在两个轨道上。干声用于转成 MIDI 做 AI 演唱。注意，男歌女唱或女歌男唱时，导入前先进行变调。常用工具如 TME Studio（地址：https://y.qq.com/tme_studio/index.html/editor ），可用于音频分离；Vocalremover（地址：https://vocalremover.org/zh/keybpmfinder ），包含音频分离、变调、BPM 查询等功能。第二步：干声转换。转换前先将工程 BPM 设置为与歌曲一致，然后将音频轨道的文件拖入到空白的歌手轨道进行干声转换。第三步：选择歌手。软件左侧有歌手可选择，长按拖动到歌手轨道的头像处即可切换歌手。 2. Suno 和 Udio：推出了上传音频文件生成音乐的功能，有了前置旋律，可以精确控制每首歌的速度、旋律、配器、合成等。可以用提示词多 Roll 一些和流派、心情、场景相关的曲子，把点数用来 roll 更多细节调整的部分，提升作品品质。

2025-03-06

最好的语音合成模型是什么？用于我录入语音，合成我自己的声音。

目前在语音合成领域，有多种优秀的模型。例如： ChatTTS：这是一个用于对话的生成式语音合成模型，生成的语音可以达到“以假乱真”的程度。但为防止被用于违法行为，作者在训练中添加了少量高频噪音并压缩了音质。 MiniMax AI 的 T2A01HD 语音合成模型：仅需 10 秒录音，就能实现高精度的声音克隆。生成的语音在音色、语调和情感表达上达到录音室级别，支持 17 种语言，提供 300 多种预置音色库，并支持多种音效调整。语音合成包括将文本转换为可听声音信息的过程，一般由文本前端和声学后端两个部分组成。当代工业界主流语音合成系统的声学后端主要技术路线包括单元挑选波形拼接、统计参数和端到端语音合成方法，当代主要采用端到端声学后端。端到端声学后端一般包括声学模型和声码器两部分，同时也出现了直接从音素映射为波形的完全端到端语音合成系统。您可以根据自己的需求选择适合的语音合成模型。例如，如果您希望快速实现高精度的声音克隆，可以考虑 MiniMax AI 的 T2A01HD 模型；如果您对对话场景的语音合成有需求，ChatTTS 可能是一个不错的选择。

2025-03-06