以下是一些好用的语音翻译相关工具和应用:
在音频翻译性能方面,GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3,显著提高了语音识别性能,尤其是对于资源匮乏的语言。
实时生成对话。游戏中的语音通常是由配音演员预先录制的,但这些都局限于预录制的固定语句。借助生成性AI对话,角色可以说任何话——这意味着他们可以完全响应玩家正在做的事情。结合更智能的NPC AI模型(虽然不在本博客的讨论范围内,但目前同样是一个令人兴奋的创新领域),完全对玩家作出反应的游戏将很快成为现实。角色扮演。许多玩家希望扮演与他们现实世界身份相去甚远的幻想角色。然而,一旦玩家用自己的声音发言,这种幻觉就会破裂。使用与玩家的虚拟形象匹配的生成声音可以维持这种幻觉。控制。由于语音是生成的,你可以控制声音的细微差别,比如它的音色、抑扬、情感共鸣、音素长度、口音等等。本地化。允许对话被翻译成任何语言,并以相同的声音发音。像[Deepdub](https://deepdub.ai/)这样的公司专注于这个特定的领域。
ElevenLabs推出Dubbing,一种语音翻译工具,可以将视频/音频翻译成不同的语言,同时保持原始的声音。AI配音功能支持十一种语言,v2模型目前支持的20多种语言的语音翻译,包括印地语、葡萄牙语、西班牙语、日语、乌克兰语、波兰语或阿拉伯语。还可以检测多个说话人的声音,支持背景音分离和环境音降噪。国内优秀视频创作者的受众可以极大的拓展了。[heading2][谷歌在图片搜索中加入图片生成功能](https://blog.google/products/se[content]谷歌上周在搜索实验室中增加了一个功能,有两个触发方式首先是你可以直接在搜索框输入“画一张戴着厨师帽和烹饪早餐的水豚的图片”之类的内容生成图像。另一种方式可以直接在Google图片中创建AI生成的图像,作为此实验的一部分。此功能旨在当你寻找灵感时出现,例如“极简万圣节餐桌设置”或“幽灵狗屋创意”。除此之外还有一个即将推出的工具,名为“关于此图像”,它将帮助人们轻松评估图像的背景和可信度。例如,它可能会向你显示Google首次看到此图像的类似版本的时间;或向你显示网络上使用类似图像的其他页面,包括新闻或事实核查网站。图像生成和图像搜索这个场景结合还是挺好的,从图像质量来看也还行,在及格线以上。
As measured on traditional benchmarks,GPT-4o achieves GPT-4 Turbo-level performance on text,reasoning,and coding intelligence,while setting new high watermarks on multilingual,audio,and vision capabilities.按照传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。[heading2]文本评估Text Evaluation[content]Improved Reasoning-GPT-4o sets a new high-score of 87.2% on 5-shot MMLU(general knowledge questions).(Note:[Llama3 400b](https://ai.meta.com/blog/meta-llama-3/)[(opens in a new window)](https://ai.meta.com/blog/meta-llama-3/)is still training)改进推理-GPT-4o在87.2次MMLU(常识问题)上创下了5%的新高分。(注:Llama3 400b仍在训练中)[heading2]音频ASR性能Audio ASR performance[content]Audio ASR performance-GPT-4o dramatically improves speech recognition performance over Whisper-v3 across all languages,particularly for lower-resourced languages.音频ASR性能-GPT-4o在所有语言中显著提高了Whisper-v3的语音识别性能,尤其是对于资源匮乏的语言。[heading2]音频翻译性能Audio translation performance[content]Audio translation performance-GPT-4o sets a new state-of-the-art on speech translation and outperforms Whisper-v3 on the MLS benchmark.音频翻译性能-GPT-4o在语音翻译方面创下了新的领先地位,并在MLS基准测试中优于Whisper-v3。