Chat with Wiki - 音频转文字

Answer

以下是关于音频转文字的相关信息：

语音转文字推荐 OpenAI 的 wishper，相关链接：https://huggingface.co/openai/whisper-large-v2 。一分钟搞定 23 分钟的音频，相关链接：https://huggingface.co/spaces/sanchit-gandhi/whisper-jax 。这个项目在 JAX 上运行，后端支持 TPU v4-8，与 A100 GPU 上的 PyTorch 相比，它要快 70 多倍，是目前最快的 Whisper API。
对于更长输入：默认情况下 Whisper API 仅支持小于 25MB 的文件。如果音频文件更长，需要将其分成每个小于 25MB 的块或使用压缩后格式。为避免丢失上下文字信息，应避免在句子中间断开声音。处理此问题可使用 PyDub 开源 Python 软件包来拆分声频文件，但 OpenAI 对于像 PyDub 这样的第三方软件的可用性或安全性不作任何保证。
提示方面：可以使用提示来提高 Whisper API 生成的转录质量。模型将尝试匹配提示的风格，当前的提示系统比其他语言模型受限得多，仅提供对生成音频的有限控制。示例包括改善特定单词或缩略语的识别、利用先前片段的转录保留分段文件的上下文、避免标点符号的跳过、保留填充词汇、处理不同书写风格等。
支持的语言：虽然底层模型在 98 种不同的语言上进行了培训，但只列出了超过 50%单词错误率（WER）的标准行业基准测试所支持的语言，对于未列出的语言，模型也会返回输入结果但质量较低。

Content generated by AI large model, please carefully verify (powered by aily)

References

语音转文字推荐OpenAI的wishperhttps://huggingface.co/openai/whisper-large-v2语音转文字：一分钟搞定的~23分钟的音频https://huggingface.co/spaces/sanchit-gandhi/whisper-jax这个项目在JAX上运行，后端支持TPU v4-8。与A100 GPU上的PyTorch相比，它要快70多倍，是目前最快的Whisper API。

语音转文本（Speech to text）

默认情况下Whisper API仅支持小于25 MB的文件。如果您有一个比这更长的音频文件，则需要将其分成每个小于25 MB的块或使用压缩后格式。为了获得最佳性能，请避免在句子中间断开声音以避免丢失一些上下文字信息。处理此问题的一种方法是使用PyDub开源Python软件包来拆分声频文件。OpenAI对于像PyDub这样的第三方软件的可用性或安全性不作任何保证。[heading2]提示[content]您可以使用提示来提高Whisper API生成的转录质量。模型将尝试匹配提示的风格，因此如果提示也使用大写和标点符号，则更有可能使用它们。但是，当前的提示系统比我们其他语言模型要受限得多，并且仅提供对生成音频的有限控制。以下是一些示例，说明如何在不同情况下使用提示：1.对于模型经常错误识别音频中特定单词或缩略语非常有帮助。例如，以下提示改善了DALL·E和GPT-3这些单词（以前被写成“GDP 3”和“DALI”）的转录。2.为了保留分段文件的上下文，请使用先前片段的转录来引导模型。这将使转录更准确，因为模型将利用先前音频中相关信息。该模型只会考虑最后224个标记并忽略之前任何内容。3.有时候，在转录中可能会跳过标点符号。您可以通过使用包含标点符号简单提示来避免这种情况：4.该模型还可能在音频中省略常见填充词汇。如果您想在您的转录中保留填充词汇，则可以使用包含它们的指示：5.某些语言可以用不同方式书写，例如简体或繁体中文。默认情况下，该模型可能无法始终按照所需书写风格进行处理。通过在首选书写风格上添加指示即可改进此问题.

语音转文本（Speech to text）

虽然底层模型是在98种不同的语言上进行了培训。但我们只列出了超过50%单词错误率（WER）的标准行业基准测试所支持的那些。该模型将返回未列出以上列表中的其他所有可能存在输入结果但质量会较低。