生成音频的AI-WayToAGI

回答

以下是关于生成音频的 AI 的相关信息：

游戏中的生成式 AI 音频：声音和音乐是游戏体验的重要部分。在音效方面，AI 是一个有吸引力的开放领域，已有学术论文探讨在电影中生成“现场效果音”的想法，但在游戏中的商业产品尚少。例如为玩家角色生成脚步声，传统方法存在繁琐、重复和不真实的问题，更好的方式是使用实时的生成性 AI 模型制作现场效果音，能根据游戏参数响应。在音乐方面，由于游戏的时长和交互性，音乐创作面临挑战，而生成式 AI 有望解决。

人工智能音频初创公司：

adauris.ai：将书面内容转化为引人入胜的音频，并实现无缝分发。
Aflorithmic：提供专业音频、语音、声音和音乐的扩展服务。
Sonantic（被 Spotify 收购）：提供完全表达的 AI 生成语音，带来逼真表演。
kroop AI：利用合成媒体生成和检测，带来无限可能。
dubverse：一键使您的内容多语言化，触及更多人群。
Resemble.ai：生成听起来真实的 AI 声音。
Replica：为游戏、电影和元宇宙提供 AI 语音演员。
Respeecher：为内容创作者提供语音克隆服务。
amai：超逼真的文本转语音引擎。
AssemblyAI：使用单一 AI 驱动的 API 进行音频转录和理解。
DAISYS：听起来像真人的新声音。
WellSaid：从真实人的声音创建逼真的合成语音的文本转语音技术。
Deepsync：生成听起来完全像你的音频内容。

谷歌 Generating audio for video 的工作原理：为生成更高质量音频和引导模型生成特定声音，在训练过程中添加更多信息，包括 AI 生成的注释，包含声音详细描述和口语对话誊本。通过对视频、音频和附加注释进行训练，技术能学会将特定音频事件与各种视觉场景联系起来，并对注释或文本中的信息做出响应。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

游戏中的生成式 AI 革命

声音和音乐是游戏体验的重要组成部分。我们开始看到公司使用生成性AI来生成音频，以补充图形方面已经进行的工作。音效音效是AI的一个具有吸引力的开放领域。已经有[学术论文](https://arxiv.org/abs/2107.09262)探讨了使用AI在电影中生成“现场效果音”（例如，脚步声）的想法，但在游戏中的商业产品尚属稀少。我们认为这只是时间问题，因为游戏的交互性质使这成为生成性AI的明显应用，既可以在生产过程中创建静态音效（例如，“以星球大战的风格制作激光枪声音”），也可以在运行时创建实时交互式音效。考虑一个简单的任务：为玩家角色生成脚步声音。大多数游戏通过包含少量预先录制的脚步声音来解决这个问题：草地上行走的声音、碎石上行走的声音、草地上奔跑的声音、碎石上奔跑的声音等。这些声音生成和管理起来都很繁琐，并且在运行时听起来重复和不真实。更好的方法是使用实时的生成性AI模型来制作现场效果音（foley sound effects），它可以在飞行中生成适当的音效，每次都略有不同，而且能够根据游戏参数（如地面表面、角色体重、步态、鞋履等）进行响应。音乐音乐一直是游戏开发中的一个挑战。音乐很重要，因为它可以帮助设置情感基调，就像在电影或电视中一样。但由于游戏可以持续数百甚至数千小时，音乐很快就可能变得重复或令人烦躁。此外，由于游戏的交互性质，让音乐精确匹配屏幕上发生的事情可能很困难。

人工智能音频初创公司列表

[adauris.ai](https://www.adauris.ai/)-将书面内容转化为引人入胜的音频，并实现无缝分发。[Aflorithmic](https://audiostack.ai/)-专业音频、语音、声音和音乐的扩展服务。[Sonantic](https://pr-newsroom-wp.appspot.com/2022-06-13/spotify-to-acquire-sonantic-an-ai-voice-platform/)（被Spotify收购）-提供完全表达的AI生成语音，带来引人入胜的逼真表演。[kroop AI](https://www.kroop.ai/)-利用合成媒体生成和检测，带来无限可能。[dubverse](https://dubverse.ai/)-一键使您的内容多语言化，触及更多人群。[Resemble.ai](https://www.resemble.ai/)-生成听起来真实的AI声音。[Replica](https://www.replicastudios.com/)-为游戏、电影和元宇宙提供AI语音演员。[Respeecher](https://www.respeecher.com/)-为内容创作者提供语音克隆服务。[amai](https://amai.io/)-超逼真的文本转语音引擎。[AssemblyAI](https://www.assemblyai.com/)-使用单一AI驱动的API进行音频转录和理解。[DAISYS](https://daisys.ai/)-听起来像真人的新声音。[WellSaid](https://wellsaidlabs.com/)-从真实人的声音创建逼真的合成语音的文本转语音技术。[Deepsync](https://dubpro.ai/)-生成听起来完全像你的音频内容。

谷歌Generating audio for video

To generate higher quality audio and add the ability to guide the model towards generating specific sounds,we added more information to the training process,including AI-generated annotations with detailed descriptions of sound and transcripts of spoken dialogue.为了生成更高质量的音频，并增加引导模型生成特定声音的能力，我们在训练过程中添加了更多信息，包括人工智能生成的注释，其中包含声音的详细描述和口语对话誊本。By training on video,audio and the additional annotations,our technology learns to associate specific audio events with various visual scenes,while responding to the information provided in the annotations or transcripts.通过对视频、音频和附加注释进行训练，我们的技术可以学会将特定音频事件与各种视觉场景联系起来，同时对注释或文本中提供的信息做出响应。