Gemini 模型在音频质量检测方面达到了 SOTA 水平。该模型是天生多模态的,在文本、图像、音频和视频上进行联合训练,在广泛的音频基准测试中表现出色。
[title]Gemini report中文翻译[heading1]5.评估Gemini模型是天生多模态的,因为它们在文本、图像、音频和视频上进行联合训练。一个关键的问题是,这种联合训练是否能够在每个领域,都具有强大能力,与专门针对单个领域的模型和方法进行比较。我们发现这是可以的:Gemini在广泛的文本、图像、音频和视频基准测试中都做到了SOTA。