与知识库对话 - 语音翻译在语言输出的有什么好用的

回答

以下是一些好用的语音翻译相关工具和应用：

Deepdub：专注于将对话翻译成任何语言，并以相同的声音发音。
Eleven Labs 推出的 Dubbing：可以将视频/音频翻译成不同的语言，同时保持原始的声音。支持十一种语言的 AI 配音功能，v2 模型目前支持 20 多种语言的语音翻译，包括印地语、葡萄牙语、西班牙语、日语、乌克兰语、波兰语或阿拉伯语。还可以检测多个说话人的声音，支持背景音分离和环境音降噪。

在音频翻译性能方面，GPT-4o 在语音翻译方面创下了新的领先地位，并在 MLS 基准测试中优于 Whisper-v3，显著提高了语音识别性能，尤其是对于资源匮乏的语言。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

实时生成对话。游戏中的语音通常是由配音演员预先录制的，但这些都局限于预录制的固定语句。借助生成性AI对话，角色可以说任何话——这意味着他们可以完全响应玩家正在做的事情。结合更智能的NPC AI模型（虽然不在本博客的讨论范围内，但目前同样是一个令人兴奋的创新领域），完全对玩家作出反应的游戏将很快成为现实。角色扮演。许多玩家希望扮演与他们现实世界身份相去甚远的幻想角色。然而，一旦玩家用自己的声音发言，这种幻觉就会破裂。使用与玩家的虚拟形象匹配的生成声音可以维持这种幻觉。控制。由于语音是生成的，你可以控制声音的细微差别，比如它的音色、抑扬、情感共鸣、音素长度、口音等等。本地化。允许对话被翻译成任何语言，并以相同的声音发音。像[Deepdub](https://deepdub.ai/)这样的公司专注于这个特定的领域。

AIGC Weekly #42

ElevenLabs推出Dubbing，一种语音翻译工具，可以将视频/音频翻译成不同的语言，同时保持原始的声音。AI配音功能支持十一种语言，v2模型目前支持的20多种语言的语音翻译，包括印地语、葡萄牙语、西班牙语、日语、乌克兰语、波兰语或阿拉伯语。还可以检测多个说话人的声音，支持背景音分离和环境音降噪。国内优秀视频创作者的受众可以极大的拓展了。[heading2][谷歌在图片搜索中加入图片生成功能](https://blog.google/products/se[content]谷歌上周在搜索实验室中增加了一个功能，有两个触发方式首先是你可以直接在搜索框输入“画一张戴着厨师帽和烹饪早餐的水豚的图片”之类的内容生成图像。另一种方式可以直接在Google图片中创建AI生成的图像，作为此实验的一部分。此功能旨在当你寻找灵感时出现，例如“极简万圣节餐桌设置”或“幽灵狗屋创意”。除此之外还有一个即将推出的工具，名为“关于此图像”，它将帮助人们轻松评估图像的背景和可信度。例如，它可能会向你显示Google首次看到此图像的类似版本的时间；或向你显示网络上使用类似图像的其他页面，包括新闻或事实核查网站。图像生成和图像搜索这个场景结合还是挺好的，从图像质量来看也还行，在及格线以上。

OpenAI 春季发布会：GPT-4o

As measured on traditional benchmarks,GPT-4o achieves GPT-4 Turbo-level performance on text,reasoning,and coding intelligence,while setting new high watermarks on multilingual,audio,and vision capabilities.按照传统基准测试，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉能力方面创下了新的高水位线。[heading2]文本评估Text Evaluation[content]Improved Reasoning-GPT-4o sets a new high-score of 87.2% on 5-shot MMLU(general knowledge questions).（Note:[Llama3 400b](https://ai.meta.com/blog/meta-llama-3/)[（opens in a new window）](https://ai.meta.com/blog/meta-llama-3/)is still training）改进推理-GPT-4o在87.2次MMLU（常识问题）上创下了5%的新高分。（注：Llama3 400b仍在训练中）[heading2]音频ASR性能Audio ASR performance[content]Audio ASR performance-GPT-4o dramatically improves speech recognition performance over Whisper-v3 across all languages,particularly for lower-resourced languages.音频ASR性能-GPT-4o在所有语言中显著提高了Whisper-v3的语音识别性能，尤其是对于资源匮乏的语言。[heading2]音频翻译性能Audio translation performance[content]Audio translation performance-GPT-4o sets a new state-of-the-art on speech translation and outperforms Whisper-v3 on the MLS benchmark.音频翻译性能-GPT-4o在语音翻译方面创下了新的领先地位，并在MLS基准测试中优于Whisper-v3。

语音翻译在语言输出的 有什么好用的

回答

参考资料

语音翻译在语言输出的有什么好用的