Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

如果我想对一首歌填新歌并合成演唱,用哪个AI工具

Answer

如果您想对一首歌填新词并合成演唱,可以使用以下 AI 工具:

  1. ACE Studio:
    • 实操步骤:
      • 第一步:准备音频素材。使用干声转换,在软件中分别导入人声干声和伴奏[文件-导入-导入音频],放在两个轨道上。干声用于转成 MIDI 做 AI 演唱。注意,男歌女唱或女歌男唱时,导入前先进行变调。常用工具如 TME Studio(地址:https://y.qq.com/tme_studio/index.html#/editor ),可用于音频分离;Vocalremover(地址:https://vocalremover.org/zh/key-bpm-finder ),包含音频分离、变调、BPM 查询等功能。
      • 第二步:干声转换。转换前先将工程 BPM 设置为与歌曲一致,然后将音频轨道的文件拖入到空白的歌手轨道进行干声转换。
      • 第三步:选择歌手。软件左侧有歌手可选择,长按拖动到歌手轨道的头像处即可切换歌手。
  2. Suno 和 Udio:推出了上传音频文件生成音乐的功能,有了前置旋律,可以精确控制每首歌的速度、旋律、配器、合成等。可以用提示词多 Roll 一些和流派、心情、场景相关的曲子,把点数用来 roll 更多细节调整的部分,提升作品品质。
Content generated by AI large model, please carefully verify (powered by aily)

References

张吃吃:AI歌手| ACE Studio入门教程及工作流分享

使用干声转换,我们需要在软件中分别导入人声干声和伴奏[文件-导入-导入音频],放在两个轨道上。干声是用来转成MIDI做AI演唱的。如下图所示:注意,如果是男歌女唱或者女歌男唱,请在导入前先进行变调后再导入(不会变调的看下方工具推荐)。通常女声比男声高5个key左右,不绝对,大家根据听感测试调整即可。有两个工具我在进行前期音频素材准备时较常用:TME Studio腾讯音乐开发的AI音频工具箱,其中我最常用的是音频分离,可用于将人声和伴奏从歌曲中提取出来。地址:https://y.qq.com/tme_studio/index.html#/editorVocalremover包含音频分离、变调、BPM查询等功能,我使用较多的是变调和BPM查询。建议在准备素材阶段,就将音频调整到所需调,并获取到BPM。地址:https://vocalremover.org/zh/key-bpm-finder[heading3]第二步:干声转换[content]在转换之前,有一个很重要的动作:请先将工程BPM设置为与歌曲一致,就是界面顶部这个东东,前面是BPM后面是拍数,请把BPM修改为上述操作获取到的数字,这一步是为了后续微调的时候方便音符对齐节奏:设置完成后,将音频轨道的文件拖入到空白的歌手轨道,即可进行干声转换。[heading3]第三步:选择歌手[content]软件左侧有歌手可以选择,长按拖动到歌手轨道的头像处即可切换歌手。

吵爷:AI音乐-自定义前奏的一种工作流

Suno和Udio都推出了上传音频文件生成音乐的功能,很多行业大号都拿来做了各种无厘头编曲(像卡兹克的:倒车请注意),确实狠魔性~短期可以出很多流量。不过玩归玩,这个功能对于AI音乐的作用,在于精确的控制力。有了前置的旋律,我们可以精确控制每首歌的:速度(Tempo)再也不用去背那些绕口的速度词了(什么Allegro,Moderato...),可以精确控制我们想要的BPM旋律(Melody)通过自己制作一段简单的旋律,让AI补全并在整首歌贯穿,并且可以旋律+速度实现一谱变速,节省大量Roll旋律的时间。配器(Instrumentation)按照自己的想法选择音乐的乐器,减少提示词里乐器不灵光的情况(比如Suno的Drum solo),也可以自己开脑洞选择一些特殊的音色,比如用笛子吹小步舞曲~合成(synthesizer)当我们手上有两支BPM完全相同,调性也相同的音乐时,可以尝试更多的拆分组合,尝试一些更好玩的效果。这个还没试,之后会找时间试一些曲子。既然上传音频大大节省了对着一首歌猛roll的点数消耗,那每个月的点数拿来干嘛呢?首先,我们可以用提示词多Roll一些和流派,心情,场景相关的曲子。在减少了限制以后,AI音乐会发挥更多的创造力,Suno官方也提过(less is more),让AI音乐展现更强的一面。然后把这些好的旋律存起来,可能是前奏,副歌,或者一段和声,都可以作为之后制作的素材。其次,把点数用来roll更多细节调整的部分,比如某段曲子里面,一定要让它升调,不走平调,把冲的钱用在提升每首作品的品质上。下面用一个简单的例子来演示一下这个工作流:

[音乐学习] AI音乐-自定义前奏的一种工作流

Suno和Udio都推出了上传音频文件生成音乐的功能,很多行业大号都拿来做了各种无厘头编曲(像卡兹克的:倒车请注意),确实狠魔性~短期可以出很多流量。不过玩归玩,这个功能对于AI音乐的作用,在于精确的控制力。有了前置的旋律,我们可以精确控制每首歌的:速度(Tempo)再也不用去背那些绕口的速度词了(什么Allegro,Moderato...),可以精确控制我们想要的BPM旋律(Melody)通过自己制作一段简单的旋律,让AI补全并在整首歌贯穿,并且可以旋律+速度实现一谱变速,节省大量Roll旋律的时间。配器(Instrumentation)按照自己的想法选择音乐的乐器,减少提示词里乐器不灵光的情况(比如Suno的Drum solo),也可以自己开脑洞选择一些特殊的音色,比如用笛子吹小步舞曲~合成(synthesizer)当我们手上有两支BPM完全相同,调性也相同的音乐时,可以尝试更多的拆分组合,尝试一些更好玩的效果。这个还没试,之后会找时间试一些曲子。既然上传音频大大节省了对着一首歌猛roll的点数消耗,那每个月的点数拿来干嘛呢?首先,我们可以用提示词多Roll一些和流派,心情,场景相关的曲子。在减少了限制以后,AI音乐会发挥更多的创造力,Suno官方也提过(less is more),让AI音乐展现更强的一面。然后把这些好的旋律存起来,可能是前奏,副歌,或者一段和声,都可以作为之后制作的素材。其次,把点数用来roll更多细节调整的部分,比如某段曲子里面,一定要让它升调,不走平调,把冲的钱用在提升每首作品的品质上。下面用一个简单的例子来演示一下这个工作流:

Others are asking
AI语音生成
以下是关于 AI 语音生成的相关信息: 工具和网站: Coqui Studio:https://coqui.ai Bark:https://github.com/sunoai/bark Replica Studios:https://replicastudios.com 开源模型: GPTSoVITS+BertVITS2:提供的在线生成模型均已达到商用标准。 技术和模型: 用于语音生成的模型可以由 Transformers 提供。 生成音频信号常用的技术包括循环神经网络(RNNs)、长短时记忆网络(LSTMs)、WaveNet 等。 具有代表性的海外项目: Sora(OpenAI):以扩散 Transformer 模型为核心,能够生成长达一分钟的高保真视频。支持多种生成方式,在文本理解方面表现出色,能在单个生成的视频中创建多个镜头,保留角色和视觉风格。 Genie(Google):采用 STtransformer 架构,包括潜在动作模型、视频分词器与动力学模型,拥有 110 亿参数,可通过单张图像提示生成交互式环境。 WaveNet(DeepMind):一种生成模型,可以生成非常逼真的人类语音。 MuseNet(OpenAI):一种生成音乐的 AI 模型,可以在多种风格和乐器之间进行组合。 Multilingual v2(ElevenLabs):一种语音生成模型,支持 28 种语言的语音合成服务。
2025-03-06
如何利用ai把一段文字,变成视频里的人说的话
以下是利用 AI 将一段文字变成视频里人说的话的步骤: 1. 准备文字内容: 可以是产品介绍、课程讲解、游戏攻略等任何您希望推广或让大家了解的文字。 您也可以利用 AI 生成这段文字。 2. 制作视频: 使用剪映 App ,电脑端打开点击“开始创作”。 选择顶部工具栏中的“文本”,点击默认文本右下角的“+”号,为视频添加文字内容轨道。 在界面右侧将准备好的文字内容替换默认文本内容,这将为数字人提供语音播放的内容以及生成相对应的口型。 3. 生成数字人: 在显示区域拖动背景图的角将其放大到适合尺寸,并将数字人拖动到合适位置。 点击文本 智能字幕 识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 4. 为视频加入旁白(人物配音): 打开剪映,点击左上角菜单 文本,从默认文本开始,点击默认文本。 在右边文本框输入文字,可以是人物对话或短片旁白介绍。 输入文字后,点击上面菜单栏 朗读。 在朗读下面有克隆音色和文本朗读两个按钮。 克隆音色步骤:点击克隆音色 点击克隆(电脑版未检测到麦克风时无法使用,手机版可直接点击开始录制)。 至此,数字人视频就完成了,点击右上角“导出”按钮导出视频以作备用。如果希望数字人换成自己希望的面孔,需要用另一个工具来进行换脸。
2025-03-06
如何使用本地数据训练AI?
使用本地数据训练 AI 可以参考以下内容: Teachable Machine: 应用场景广泛,如商品说明书、自动驾驶、教学互动等。 允许用户快速、简单地创建机器学习模型,无需专业知识或编程技能。 使用步骤: 收集数据:可上传图片、录制声音或动作视频作为训练数据。 训练模型:用收集的数据训练模型并测试其能否正确识别新的内容。 导出模型:完成训练后可下载或上传到网上用于其他项目。 特点: 提供多种创建机器学习模型的方式,灵活且用户友好。 可在本地完成训练,不通过网络发送或处理数据,保护隐私。 生成的模型是真实的 TensorFlow.js 模型,可在任何运行 JavaScript 的地方工作,还能导出到不同格式在其他地方使用。 官方网站: Stable Diffusion: 训练数据集制作: 数据清洗:筛除分辨率低、质量差、存在破损及与任务目标无关的数据,去除水印、干扰文字等。 数据标注:分为自动标注(如使用 BLIP 输出自然语言标签)和手动标注(依赖标注人员)。 补充标注特殊 tag:可手动补充特殊标注,如运行相关代码并修改参数。
2025-03-06
本网站是集成了各类ai工具,还是教授ai知识,操作应用
本网站(WaytoAGI)是由一群热爱 AI 的专家和爱好者共同建设的开源 AI 知识库。它既集成了各类 AI 工具,如文生图、文生视频、文生语音等工具,也提供了丰富的 AI 知识,包括 AI 技术的发展与应用、多种 AI 生成工具(如输入简单提示词就能创作音乐的 so no 音频生成工具,能创建个人 AI 智能体的豆包,输入文本可生成播客的 Notebook LN)、端侧大模型的特点、AI 工程平台(如 define、coach 等)及其应用、模型社区介绍等。无论您是 AI 初学者还是行业专家,都能在这里发掘有价值的内容,应用各类 AI 工具和实战案例等,让更多的人因 AI 而强大。 相关链接:https://waytoagi.com/ 即刻体验:https://waytoagi.com/
2025-03-06
ai 代理操作
以下是关于 AI 代理操作的相关信息: 微软和 OpenAI 对人形机器人公司 Figure 投资 1 亿美元,Figure 01 展示了自主煮咖啡等能力,公司估值可能达 19 亿美元。相关链接:https://x.com/xiaohuggg/status/1752673475058393116?s=20 @MultiOn_AI 是一个多功能 AI 代理,使用 GPT 进行网络操作,如订票和订餐,能自动安排 Google 会议和发推文。相关链接:https://x.com/xiaohuggg/status/1752617872931930435?s=20 安圭拉岛通过“.ai”域名销售增长四倍,每月约 300 万美元收入用于偿还债务和取消税收。相关链接:https://spectrum.ieee.org/aidomains 、https://x.com/xiaohuggg/status/1752609992228897051?s=20 使用 Apple Vision Pro 购买 Cybertruck 展示了全新的线上购物体验,使用户足不出户即可感受购物震撼。相关链接:https://x.com/xiaohuggg/status/1752591353807303006?s=20 WhisperKit 是实时语音推理转录 Swift 软件包,易于部署和实时语音转录,支持流式转录和性能优化,有开源模型支持便于更新和部署。 此外,影刀 RPA+AI Power 具有以下特点: 集成丰富的 AI 组件及各种技能组件,极大地拓展 AI 服务的能力边界,打造 AI Agent。比如搜索引擎组件可让 AI 接入互联网获取实时信息,RPA 组件可直接调用影刀 RPA 客户端应用实现 AI 自动化操作等。 提供无缝多样的使用方式,包括网页分享、对话助理、API 集成等。企业有众多分散的系统,AI Power 提供多种调用方式,方便企业在不同业务场景下灵活选择最适合的接入方式,让内部员工、外部客户等便捷地与 AI 交互。 提供贴身的企业级服务支持,包括教学培训、技术答疑、场景共创等方面的服务。大模型类的 AI 对大部分企业来说是新事物,影刀 AI Power 拥有完整的服务团队,帮助企业把产品用起来,把 AI 落地下去,找到最佳实践,助力业务成功。
2025-03-06
对于已有编程经验的人群的AI入门推荐
对于已有编程经验的人群的 AI 入门推荐如下: 书籍推荐: Python 方面: 《Python 学习手册》:名声在外。 《Python 编程》:对新手友好。 AI 方面: 《人类简史》:“认知革命”相关章节令人获益匪浅。 《深度学习实战》:梳理了 ChatGPT 爆发前的 AI 信息与实践。 课程与资源推荐: B 站 up 主“PAPAYA 电脑教室”的 Python 入门课,完全免费。 链接:https://space.bilibili.com/402780815/channel/seriesdetail?sid=2762019 Andrej Karpathy 对于大模型的讲解: 油管地址:https://www.youtube.com/watch?v=zjkBMFhNj_g B 站地址:https://www.bilibili.com/video/BV1AU421o7ob 资料库推荐:AJ 和众多小伙伴们共创的“🌈通往 AGI 之路”(飞书文档),这是当下最全的中文 AI 资料库,免费、开源、共创,包含几乎所有有价值的文档、文章、资料、资讯,并永远第一时间更新。 链接:https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e
2025-03-06
我想要做一首歌,请给我推荐免费的AI大模型
以下为您推荐一些免费的 AI 大模型及获取方式: 1. 国内: 阿里的通义千问大模型接口:您可以打开链接创建 API key。 智谱 AI(ChatGLM)、科大讯飞(SparkDesk)也有免费接口,但国内的大模型大多限制一定免费额度的 Token。 2. 国外: 谷歌的 Gemini 大模型(gemini 1.5)。 海外版 Coze 的 GPT4 模型,此模型免费且能图片识别,但需要给服务器挂梯子。想使用的话,推荐参考张梦飞同学写的教程:,里面有手把手教您如何给服务器科学上网以及如何使用海外版 coze。 另外,为了帮助您更好地理解 AI 大模型的相关知识,以下是一些概念和原理的介绍: 1. 生成式 AI 生成的内容叫做 AIGC。 2. 相关技术名词: AI 即人工智能。 机器学习包括监督学习、无监督学习、强化学习,电脑通过找规律进行学习。 监督学习使用有标签的训练数据,算法目标是学习输入和输出之间的映射关系,包括分类和回归。 无监督学习使用的数据没有标签,算法自主发现规律,经典任务如聚类。 强化学习从反馈里学习,最大化奖励或最小化损失,类似训小狗。 深度学习是一种参照人脑有神经网络和神经元的方法(因有很多层所以叫深度),神经网络可用于监督学习、无监督学习、强化学习。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 即大语言模型,对于生成式 AI,生成图像的扩散模型不是大语言模型;对于大语言模型,生成只是其中一个处理任务,比如谷歌的 BERT 模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类。 3. 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型,它完全基于自注意力机制(SelfAttention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。Transformer 比 RNN 更适合处理文本的长距离依赖性。
2025-02-11
如何在suno 中指定演唱者的性别
在Suno AI音乐创作平台上,通过精准的提示词输入,您可以引导模型更接近地捕捉和实现您心中所想象的音乐效果。以下是一些关键提示词的类别和示例,它们将成为您创作旅程中的得力助手。 声音类提示词 ``` Male Vocal(男声) Female Vocal(女声) Male Singer(男歌唱家) Female Singer(女歌唱家 Female Diva Solo(女独唱) ```
2024-04-22