音频转文字-WayToAGI

回答

以下是关于音频转文字的相关信息：

推荐使用 OpenAI 的 wishper，相关链接为：https://huggingface.co/openai/whisper-large-v2 。还有一个项目：https://huggingface.co/spaces/sanchit-gandhi/whisper-jax ，此项目在 JAX 上运行，后端支持 TPU v4-8，与 A100 GPU 上的 PyTorch 相比，快 70 多倍，是目前最快的 Whisper API。
语音转文本 API 提供了转录和翻译两个端点，基于开源大型-v2 Whisper 模型。可用于将音频转录为任何语言，将音频翻译并转录成英语。目前文件上传限制为 25MB，支持的输入文件类型包括：mp3、mp4、mpeg、mpga、m4a、wav 和 webm。
转录 API 的输入是要转录的音频文件及所需输出格式的音频文字稿，默认响应类型为包含原始文本的 JSON，可添加更多带有相关选项的--form 行设置其他参数。
翻译 API 以任何支持的语言作为输入音频文件，并在必要时将音频转录成英文，目前仅支持英语翻译。
支持的语言包括：南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚文、保加利亚文、加泰罗尼亚文、中文、克罗地亚文、捷克文、丹麦文、荷兰文、英国英语、爱沙尼亚文、芬兰文、法国法式英语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

[title]语音：语音转文字语音转文字推荐OpenAI的wishperhttps://huggingface.co/openai/whisper-large-v2语音转文字：一分钟搞定的~ 23分钟的音频https://huggingface.co/spaces/sanchit-gandhi/whisper-jax这个项目在JAX上运行，后端支持TPU v4-8。与A100 GPU上的PyTorch相比，它要快70多倍，是目前最快的Whisper API。

语音转文本（Speech to text）

语音转文本API提供了两个端点，即基于我们最先进的开源大型-v2 Whisper模型的转录和翻译。它们可以用于：将音频转录为任何语言。将音频翻译并转录成英语。目前文件上传限制为25 MB，并支持以下输入文件类型：mp3、mp4、mpeg、mpga、m4a、wav和webm。[heading2]快速入门[heading3]转录[content]转录API的输入是您要进行转录的音频文件以及所需输出格式的音频文字稿。我们目前支持多种输入和输出文件格式。默认情况下，响应类型将是包含原始文本的JSON。要在请求中设置其他参数，您可以添加更多带有相关选项的--form行。例如，如果您想将输出格式设置为文本，则应添加以下行：[heading3]翻译[content]翻译API以任何支持的语言作为输入音频文件，并在必要时将音频转录成英文。这与我们的/Transcriptions端点不同，因为输出不是原始输入语言，而是被翻译成英文文本。在这种情况下，输入的音频是德语，输出的文本看起来像：我们目前仅支持英语翻译。

语音转文本（Speech to text）

[title]语音转文本（Speech to text）[heading2]支持的语言南非荷兰语，阿拉伯语，亚美尼亚语，阿塞拜疆语，白俄罗斯语，波斯尼亚文，保加利亚文，加泰罗尼亚文，中文，克罗地亚文、捷克文、丹麦文、荷兰文、英国英语、爱沙尼亚文、芬兰文、法国法式英語,加利西亞語,德國語,希臘語,希伯來語,印地語,匈牙利語,冰島icelandic読音:[ˈaɪsləndɪk],印度尼西雅Indonesian読音:[indoneˈsia],意大利Italian読音:[iːtæljən],日本Japanese読音:[dʒæpəniːz],卡纳达Kannada読音:[kʌn'na:dʌ],哈萨克Kazakh読音:[kɑzɑx],韩国Korean读作：[hanguk]，拉脫維Latvian读作：[lætvijan]，立陶宛Lithuanian读作：[liθu'einjən]，马其顿Macedonian读作：[mækidouniən]，马来Malay读作：['meilei]，馬拉地Marathi讀作:[ma'rathi