Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

生成音乐

Answer

以下是关于生成音乐的相关信息:

  • 有很多令人惊叹的生成音乐实验,如 Dadabots 在 YouTube 上的无情死亡金属流媒体 AI ,Holly Herndon 围绕声音移植的实验,以及令人惊讶的 Riffusion 音乐模型。有人受此启发建立了 SPIN 平台,将 DVS 系统与 MusicGen API 结合,在技术实施过程中经历了在 Raspberry Pi 上测试 Musicgen API 、测试 Xwax DVS 包、对按钮输入进行原型设计等阶段。
  • AI 生成音乐存在基于乐理规则的符号生成模型和基于音频数据的音频生成模型两种主流技术路线。开发者用其填充游戏音效、渲染游戏氛围音乐,像 MusicLM 等模型已支持生成多音轨作品,以其为原型并佐以专业制作人协调,可加快进入游戏制作与发行生产线。
  • 在《西游不能停》中,通过活用符号断句和 Metatag 可控制生成方向,若需续写歌曲,在 web 端点击“continue from this song”,在 discord 中点击“⏩continue 1/2”的 icon ,续写时需注意一些细节。
Content generated by AI large model, please carefully verify (powered by aily)

References

AI音乐产品:SPIN

有很多令人惊叹的生成音乐实验,从Dadabots[在YouTube上无情的死亡金属流媒体AI](https://www.youtube.com/watch?v=MwtVkPKx3RA)到[Holly Herndon](https://x.com/hollyherndon/status/1456380565784088581?s=20)围绕声音移植的实验。但当我偶然发现[Riffusion音乐模型](https://www.riffusion.com/)时,我意识到我们已经达到了一个转折点;我对它的深度和现实主义感到惊讶,包括它的新更新,在输出中添加了抒情的声音。受此启发,我想建立一个平台,让我进一步探索和结合以前从未听说过的音乐和声音的组合。这为构建SPIN奠定了基础。我希望SPIN能够鼓励人们玩耍;有一个临时界面就可以达到这个目的。DVS(数字黑胶系统)在聆听生成的作品时增加了额外的维度。它使我们能够放慢这些合成曲调并在音符之间聆听。因此,我决定以老式合成器的形式将DVS系统与MusicGen API结合起来。下面是我在技术实施过程中所经历的阶段的抽象高级视图。查看[此推文](https://x.com/ArvindSanjeev/status/1757373462346338409?s=20)的链接,了解整个过程并附有图片和视频。使用Python在Raspberry Pi上测试Musicgen API。在Raspberry Pi上使用时间编码的LP记录测试了Xwax DVS包。使用键盘矩阵库对按钮输入进行原型设计,并使用简单的LED矩阵测试硬编码的自定义动画。但是,我希望动画更加流畅和流畅,因此我改用FastLED库和WS2812b neopixel。

2024年度AI十大趋势报告:AI如何影响文化产业

AI生成音乐的存在2种主流技术路线:基于乐理规则的符号生成模型和基于音频数据的音频生成模型。开发者正在使用AI生成音乐来填充游戏过程与游戏UI中需要使用到的各类音效、不同游戏场景中用以渲染氛围的各种音乐。AI生成音乐作为音乐资产在游戏制作和发行环节使用都是非常可行的,像MusicLM等模型已经支持生成多音轨的作品。使用AI生成音乐为原型、佐以专业制作人的协调,将使AI音乐更快进入游戏制作与发行的生产线。⑤玩家体验与个性化AI能基于玩家游戏行为评估玩家技能水平和游戏风格,同时动态调整游戏难度,增加或降低敌人的数量和强度,改变游戏环境等;不断收集的玩家数据,还能使NPC和游戏系统更加适配玩家水平。同时在游戏运营过程中,AI客服和AI分析也是提升玩家体验的重要⼀环。2、AI带来新的游戏我们关注到,许多充满灵感的开发者正在尝试将AI作为游戏玩法的⼀环,这正是游戏行业从AI+⾛向AI原生的表征之⼀。2023年Genfun.ai和Meshy联合制作的游戏《Soul Chronicle》,在当时是首款实时3D+AIGC+UGC的MMO⼿游。最大突破是首先制作出了⼀种与游戏完美融合的3D AIGC技术,在游戏中可以实时生成角色皮肤。2024年Bitmagic释出了他们推出的能直接创建“游戏世界”的平台——《Roleverse》的最新成果,在平台内可以使用提示在游戏内定制角色,对角色进行缩放、挤压和拉伸,也可以轻松地对游戏世界进行编辑。△图:《Soul Chronicle》(左)和《Roleverse》(右)3、AI促进游戏产业变革

金属文:AI春晚《西游不能停》创作过程分享

《西游不能停》中类似的优化有很多,并且最终只抽了两次卡就得到了我满意的音乐,虽然suno没有办法像谱子那样100%精准地控制节奏,但是活用符号进行断句,再结合Metatag,就可以最大限度的控制生成方向,同时保留随机的乐趣。续写歌曲这首歌在年前创作的时候suno还是V2版本,单次最多只能生成80s的音乐,没法唱完所有的歌词,所以我们需要进行续写,web端在我们想要续写的歌曲这里点击“continue from this song”即可,在discord中则是点击“⏩continue 1/2”的icon。这里吐槽一下suno的web前端页面,实在是太黑了啥都看不清😅web端Suno on discord如果续写的时候正好卡在一个段落的中间,有两个细节需要注意,一是不要在lyrics的最前头加任何Metatag,否则会被当做一个新的段落,丢失掉连贯性;二是如果第一段的结尾最后一个字哪怕没有唱完,只发了一点点音,续写的时候也直接从下一个字开始就好。还是举个🌰,《西游不能停》的第一段在八戒的“我自有我抱负”这句结束,并且“负”字只发了一半的音,那么续写的时候直接从“尊嘟假嘟....”开始。你可以直接跳到Part 1的最后和Part 2的开始听。

Others are asking
有什么AI生图网站支持生成汉字?
以下是一些支持生成汉字的 AI 生图网站: 1. ComfyUI Kwai Kolors 快手可图:支持中英文提示词工作流,有相关的下载安装设置教程,可生成汉字。您可以通过了解更多。 2. 豆包 App 支持文生图中文文字生成。
2025-03-06
证件照片生成
以下是关于证件照片生成的相关内容: 可以通过搭建证件照应用页面来实现。先创建应用并设置第一个 div 容器,页面分为上中下三块,顶部为标题,中间有原图、过渡和最终结果,底部为展示区域和表单。还需对容器的高度、宽度、排列方向以及文本组件的字体、颜色、加粗等属性进行设置。图片上传处理方面,介绍了图片组件的本地上传和绑定数据功能,需注意微信截图可能导致上传问题。页面也可分为左右两块,左侧展示区域,右侧为表单,左侧还需嵌套容器处理图片和文字展示。此外,前端页面搭建有一些技巧,如在 DIV10 中选择子容器、复制搭建元素等,包括调整表单组件的尺寸、按钮文案和上传文件类型等设置。业务逻辑流程包括用户上传照片、图片理解、图像生成、智能换脸、背景修改等步骤,各步骤中有参数设置、提示词调整和测试方法。 普通人现在可以利用 AI 生成自己的证件照,无需去影楼拍摄。有能将上传照片生成白底、蓝底和红底的证件照生成工具。
2025-03-06
想要生成一张图片 用什么ai更合适
以下为您介绍几种适合生成图片的 AI 工具及相关操作流程: 1. Stable Diffusion 模型:可根据文本指令生成图片,图片的样子取决于使用者输入的提示词,非排列组合工作模式下难以出现完全相同的两张输出图片。类似于画笔,构造出的图画取决于使用者自己的设计。在当下技术背景与现实下,利用新兴智能工具,把自己的独创性思想转化为现实作品,极大地节省了创作成本。案例中法官承认这样依靠使用者的输出设计生成的图片属于美术作品,具有独创性和智力投入,受到著作权的保护。 操作流程:使用者根据自己的审美个性,通过增删提示词、修改相关参数,得出不同的图片,最后选定。 2. Tusiart: 简明操作流程: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora,控制图片效果及质量。 ControlNet:控制图片中特定的图像,如人物姿态、生成特定文字等,属于高阶技能。 局部重绘:下篇再教。 设置 VAE:选择 840000 。 Prompt 提示词:用英文写想要生成的内容,单词、短语之间用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写想要避免产生的内容,单词、短语之间用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 3. Liblibai: 简明操作流程: 定主题:确定生成图片的主题、风格和表达的信息。 选择 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。 选择 lora:寻找与生成内容重叠的 lora,控制图片效果及质量。 设置 VAE:选择 840000 。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写想要生成的内容,单词、短语之间用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写想要避免产生的内容,单词、短语之间用英文半角逗号隔开。 采样方法:一般选 DPM++2M Karras,参考模型作者推荐的采样器更有保障。 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 尺寸:根据个人喜好和需求选择。 生成批次:默认 1 批。
2025-03-06
我需要找到一个方法来把我爷爷迷迷糊糊的老照片上的样子生成样貌特征完全一致的数字人脸,如何可以实现?
以下是一种可能实现将您爷爷老照片生成数字人脸的方法: 1. 利用剪映软件: 在剪映右侧窗口顶部,打开“数字人”选项,选取一位免费且适合的数字人形象,比如“婉婉青春”。 软件会播放数字人的声音,您可判断是否需要,点击右下角“添加数字人”,将其添加到当前视频中。剪映会根据提供的内容生成对应音视频并添加到轨道中。 左下角会提示渲染完成时间,之后可点击预览按钮查看效果。 为让视频更美观,可增加背景图片。删除先前导入的文本内容,点击左上角“媒体”菜单并“导入”本地图片,将其添加到视频轨道上(会覆盖数字人)。 拖动背景图的角将其放大到适合尺寸,将数字人拖动到合适位置。 点击文本智能字幕识别字幕,点击开始识别,软件会自动将文字智能分段并形成字幕。 完成后点击右上角“导出”按钮导出视频备用。 2. 若希望数字人脸换成特定的面孔,可能需要使用其他工具进行换脸。 3. 对于老照片的处理,还可以启用 MutiDiffusion 插件,不开放大倍数,仅使用分块渲染功能,在显存不够的情况下放大图片。 对于复杂的老照片,可先在 ps 里进行角度调整和照片裁切,然后上色。若直接上色效果不佳,可放弃人物服装颜色指定,只给场景方向,让 AI 自行决定。 可加入第二个 controlnet 来控制颜色,使用 t2ia_color 模型,给出简单的关键词,如“蓝天、绿树、灰石砖”。最后经过脸部修复和放大得到最终效果。
2025-03-06
怎么可以通过好好利用“waytoagi”生成视频?从文字到图片最后到视频?具体可以用到哪些工具?
以下是关于如何通过“waytoagi”从文字生成视频以及相关工具的介绍: 在视频制作中,对于规避多人脸崩的镜头,AI生成多人脸易崩,可借助工具修复,如放大工具。终极解决办法是抽出有问题的帧进行修复,但时间成本高,也可换脸,但存在光影和边缘模糊等问题。 解决文字糊掉的问题,推荐使用将 2D 图片转成 3D 效果的工具,用可灵也能在很大程度上保持文字不变。 视频补帧一般使用 top video 黄玉,美图工具 still 可氪金提升视频帧率和画质,但对显卡要求高。 处理团队意见分歧,在传统片子和 AI 片子中,若对镜头或节点分歧较大,一般听写本子和拆分镜的人的意见。 扩图工具可用吉梦扩图,一次只需一个积分,操作方便,如上传图片后调整尺寸和扩图范围。 去水印工具如 HID 工具,还有很多其他去水印工具可选择。 利用现有工具生成艺术字和图片的流程:先点导入参考图,选择免费无版权且字体不太细的字,通过设置边缘轮廓或景深、参考程度、添加关键词等生成,还可进行细节修复和超清放大。利用参考图改变生成效果,参考程度可影响生成结果,不同风格的参考图能带来不同效果。生成视频和首尾帧,多生成几张图制作视频,通过首尾帧让图片有变化效果,但要注意写好提示词。同时,收集参考图时注意版权,可先在其他地方生成保存再当参考图。 以下是一些文字生成视频的 AI 产品: Pika:擅长动画制作,并支持视频编辑。 SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但收费。 Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看: 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-03-06
如何生成提示词
以下是关于生成提示词的一些方法和示例: 1. 在使用某些插件时,可在其下方添加提示词以增加控制,例如规定所画内容必须是猫,或添加标准化的质量提示词,以获得更符合期望的图片。例如将大模型换成二次元“AnythingV5”,设定主题为“人物”,并填入相关提示词如“一个肥胖的人”。 2. 在主菜单中设定主题,如“风景”,并给出正向提示词如“房子”,然后在“工作流协助”中点击“生成一些提示词”,会随机生成多段提示词,可任选发送到上方生成并根据效果进行修改调整。 3. 参考艺术字生成的案例提示词,如“金色立体书法,‘立冬’,字体上覆盖着积雪,雪山背景,冬季场景,冰雪覆盖,枯树点缀,柔和光影,梦幻意境,温暖与寒冷对比,静谧氛围,传统文化,唯美中国风”等。 4. 对于 Midjourney 提示词生成器,可仿照 GPTs 里的 MJ prompt 进行修改,方便让 agent 帮助补全润色,例如“一个巨大鲸鱼头部的特写,鲸鱼的眼睛显示疲惫的神情,一个小女孩站在鲸鱼的旁边抚摸鲸鱼的脸,小女孩占画面比例很小,体现鲸鱼的巨大,吉卜力工作室风格”等示例。未来推理模型可能提升提示词的精准性。
2025-03-06
如何用ai剪视频与音乐卡点
以下是关于用 AI 剪视频与音乐卡点的相关内容: 1. Suno 专属音乐生成功能:视频会根据画面匹配生成音乐,且能实现音乐和视频卡点。您可以生成随手拍的内容进行尝试。 2. 前 Sora 时代的 AI 短片制作: 声音调试:使用 11labs 时通过标点符号改变语音效果,国内可使用出门问问的魔音工坊,其有情绪调节控件。 剪辑工具:13 分钟的短片可用剪映,因其有人性化设计和简单音效库、小特效;510 分钟或更长篇幅、追求更好效果可能需用 PR/FCP/达芬奇等传统剪辑软件。 剪辑流程:视频粗剪 视频定剪 音效/音乐 特效 包装(如字幕)。注意不要先铺满音乐再剪,以免放弃听觉制作空间。 3. AI 短片配音: 音乐素材:包括之前收藏的满意音乐素材、音效素材和抖音收藏的音乐。 AI 音乐:可选择人声歌曲或纯音乐,描述想要的音乐风格,若为人声歌曲还可自己写歌词或让 AI 写,通过智能歌词按钮输入提示让 AI 写作。 音乐库:剪映提供各种风格音乐,选择合适的添加到音轨。 音效库:通过搜索框输入关键词,试听合适的音效并添加到音轨。
2025-03-05
现在有哪些做音乐的AI平台
以下是一些做音乐的 AI 平台: :前身为“Definite Technologies”,开发使用 AI 处理/生成声音的 VST/AU/AUv3 插件。 :自适应 AI 音乐平台,通过高质量音频样本进行实时细胞组成。 :基于 AI 的音乐助手,包括歌词写作助手。 :实时音乐、音频和视频创作平台。 :为创意媒体应用提供合成歌声。 :数字宇宙的音乐解决方案,Soundtracks、AI Studio、Music Maker JAM 的制作者。 :AI 音乐创作和制作。 :自由定制高质量免版权费音乐。 :一个云平台,让音乐人和粉丝在全球范围内创作音乐、协作和互动。 :使用嵌入式软件、信号处理和 AI 帮助艺术家录制、混音和母带处理他们的现场表演。 :开源音乐生成工具。 :旨在通过 AI 赋能真实艺术家的伦理音频 AI 插件、工具和社区,而非取代他们。 :使用 AI 创作音乐和语音。
2025-03-05
文生音乐的app
以下是一些关于文生音乐的 App 相关信息: 目前龙头的文生音乐软件如 Suno、Uido 等,对于简单的广告 BGM、游戏配乐等使用场景有较大价值,但在音乐创作上仍有不足。例如 Suno 除歌词部分外,音乐风格提示词只有 120 个字符,能描述和理解的关键词有限,创作丰富度也有限,旋律较单调。 Colab 上有一个增强音质的脚本,但不如现有的音频处理工具,调参较难。 一些相关工具和网站: Audiobox:https://audiobox.metademolab.com/ ,是 Meta 的新音频生成基础研究模型,可结合语音输入和自然语言文本提示生成语音和声音效果。 Stable Audio:https://www.stableaudio.com/ ,可使用对应的 GPTs 生成提示词:https://chat.openai.com/g/gjAr0hpLsLstableaudiogpt 。 图像生成配乐模型(MAGNet,AudioLDM,audiogen):https://huggingface.co/spaces/fffiloni/Image2SFXcomparison ,audiogen 可文生音乐、文生拟音,在 discord 上使用但效果不稳定:https://discord.gg/wUuF5Uh2pR 。 音乐生成使用的文生音乐模型 Suno 相关教程: 在自定义模式(Custom Mode)下,有音乐风格(Style of Music)与歌词(Lyrics)两个主要输入窗口,音乐风格需填写多个描述整首音乐风格和感觉的 tag 进行分隔,可识别的 tag 包括音乐类型/流派、人声/乐器、情绪/氛围、节奏、场景、混响、其他和声/音效等。
2025-03-01
比suno更好用的音乐创作工具
目前,Suno 是一款基于人工智能技术的音乐创作工具,其特点包括:无需专业音乐知识,任何人都可用其轻松创作音乐;通过自然语言描述生成旋律、和声、鼓点等音乐元素;支持多种流行音乐风格;提供创作过程的建议和指导;可导出常见音频格式。但它也存在一些不足,如提示词控制方面,除歌词部分外,音乐风格提示词只有 120 个字符,能描述和理解的关键词有限,创作丰富度有限,旋律相对单调。 除了 Suno 之外,还有一些其他的音乐创作工具或相关的人工智能音频初创公司,例如: :前身为‘Definite Technologies’,开发使用 AI 处理/生成声音的 VST/AU/AUv3 插件。 :自适应 AI 音乐平台,通过高质量音频样本进行实时细胞组成。 :基于 AI 的音乐助手,包括歌词写作助手。 :实时音乐、音频和视频创作平台。 :为创意媒体应用提供合成歌声。 :数字宇宙的音乐解决方案,Soundtracks、AI Studio、Music Maker JAM 的制作者。 :AI 音乐创作和制作。 :自由定制高质量免版权费音乐。 :云平台,让音乐人和粉丝在全球范围内创作音乐、协作和互动。 :使用嵌入式软件、信号处理和 AI 帮助艺术家录制、混音和母带处理他们的现场表演。 :开源音乐生成工具。 :旨在通过 AI 赋能真实艺术家的伦理音频 AI 插件、工具和社区,而非取代他们。
2025-02-27
AI 音乐工具
以下是一些 AI 音乐工具: 1. Udio:由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。网址:https://www.udio.com/ 2. Suno AI:是一款革命性的人工智能音乐生成工具,通过先进的深度学习技术,能将用户的输入转化为富有情感且高质量的音乐作品。网址:https://suno.com/ 3. Adobe 推出的实验性 AI 音乐工具“Project Music GenAI Control”:通过文本提示生成音乐,提供细粒度控制,支持音乐强度调整、重新混音、改变节奏、生成循环等功能。网址:https://adobe.ly/3uMBr27 、https://x.com/xiaohuggg/status/1763207216348479987?s=20 此外,5 月 1 日的 Xiaohu.AI 日报中提到 Udio 进行了更新,增加了上下文窗口,使音乐作品过渡更自然,音轨最大长度扩展至 15 分钟,适合长篇混音和复杂音乐制作,并引入基于树的音轨历史查看方式。详细介绍:https://x.com/imxiaohu/status/1785666886648447251 内容由 AI 大模型生成,请仔细甄别。
2025-02-26
我想要能够生成音乐的ai工具
以下为您推荐一些能够生成音乐的 AI 工具: 1. Udio:由前 Google DeepMind 工程师开发,通过文本提示快速生成符合用户音乐风格喜好的高质量音乐作品。网址:https://www.udio.com/ 2. Suno AI:是一款革命性的人工智能音乐生成工具,它通过先进的深度学习技术,能够将用户的输入转化为富有情感且高质量的音乐作品。网址:https://suno.com/ 3. Lemonaide Music:与 DAW 集成的生成音乐工具,100%免版权费。网址:https://www.lemonaide.ai/ 4. tuney.io:为创意媒体提供的伦理音乐 AI。网址:https://csteinmetz1.github.io/aiaudiostartups/tuney.io 5. KORUS AI:AI 音乐创作平台和探索声音宇宙的个人音乐制作人。网址:https://play.korus.co/ 6. TRINITI:通过音乐赋予您新的创作和表达方式。网址:https://triniti.plus/ 7. voice swap:使用 AI 改变您的歌唱声音。网址:https://www.voiceswap.ai/ 8. mix audio:为您的创造力和生产力提供 AI 音乐。网址:https://mix.audio/ 9. Audiogen:使用 AI 生成声音、音效、音乐、样本、氛围等。网址:https://www.audiogen.co/ 10. Wavtool:带有 AI 助手并支持本地 VST 插件的网页 DAW。网址:https://wavtool.com/ 11. Wavacity:Audacity®音频编辑器的网页版。网址:https://wavacity.com/ 内容由 AI 大模型生成,请仔细甄别。
2025-02-26