Chat with Wiki - 长文本文件用哪个AI处理

Answer

对于处理长文本文件，以下是一些相关的 AI 工具和方法：

Whisper API：默认情况下仅支持小于 25MB 的文件。若文件更长，需将其分成小于 25MB 的块或使用压缩后格式。可使用 PyDub 开源 Python 软件包来拆分声频文件，但 OpenAI 对其可用性或安全性不作保证。您还可以使用提示来提高 Whisper API 生成的转录质量，例如处理特定单词或缩略语的识别错误、保留分段文件的上下文、避免标点符号的省略等。
通义千问的 Qwen2.5-1M 大模型：推出 7B、14B 两个尺寸，在处理长文本任务中稳定超越 GPT-4o-mini，同时开源推理框架，在处理百万级别长文本输入时可实现近 7 倍的提速。在上下文长度为 100 万 Tokens 的大海捞针任务中表现较好。对于更复杂的长上下文理解任务，可参考相关测试集。其优势包括长文本处理能力强、推理速度提升、上下文长度扩展等。开源平台有 Huggingface（https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo）和 Modelscope（https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo）。

Content generated by AI large model, please carefully verify (powered by aily)

References

默认情况下Whisper API仅支持小于25 MB的文件。如果您有一个比这更长的音频文件，则需要将其分成每个小于25 MB的块或使用压缩后格式。为了获得最佳性能，请避免在句子中间断开声音以避免丢失一些上下文字信息。处理此问题的一种方法是使用PyDub开源Python软件包来拆分声频文件。OpenAI对于像PyDub这样的第三方软件的可用性或安全性不作任何保证。[heading2]提示[content]您可以使用提示来提高Whisper API生成的转录质量。模型将尝试匹配提示的风格，因此如果提示也使用大写和标点符号，则更有可能使用它们。但是，当前的提示系统比我们其他语言模型要受限得多，并且仅提供对生成音频的有限控制。以下是一些示例，说明如何在不同情况下使用提示：1.对于模型经常错误识别音频中特定单词或缩略语非常有帮助。例如，以下提示改善了DALL·E和GPT-3这些单词（以前被写成“GDP 3”和“DALI”）的转录。2.为了保留分段文件的上下文，请使用先前片段的转录来引导模型。这将使转录更准确，因为模型将利用先前音频中相关信息。该模型只会考虑最后224个标记并忽略之前任何内容。3.有时候，在转录中可能会跳过标点符号。您可以通过使用包含标点符号简单提示来避免这种情况：4.该模型还可能在音频中省略常见填充词汇。如果您想在您的转录中保留填充词汇，则可以使用包含它们的指示：5.某些语言可以用不同方式书写，例如简体或繁体中文。默认情况下，该模型可能无法始终按照所需书写风格进行处理。通过在首选书写风格上添加指示即可改进此问题.

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

本次开源的Qwen2.5-1M大模型，我们推出7B、14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini；同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。这也是我们首次将开源Qwen模型的上下文扩展到1M长度。1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》[heading2]长文本处理能力[content]在上下文长度为100万Tokens的大海捞针（Passkey Retrieval）任务中，Qwen2.5-1M能够准确地从1M长度的文档中检索出隐藏信息，仅有7B模型出现了少量错误。对于更复杂的长上下文理解任务，通义官方选择了[RULER](https://github.com/hsiehjackson/RULER)、[LV-Eval](https://github.com/infinigence/LVEval)和[LongbenchChat](https://github.com/THUDM/LongAlign)，这些测试集也在[此博客](https://qwenlm.github.io/zh/blog/qwen2.5-turbo/#more-complex-long-text-tasks)中进行了介绍。从这些结果中，我们可以得出以下几点关键结论：1.显著超越128K版本：Qwen2.5-1M系列模型在大多数长上下文任务中显著优于之前的128K版本，特别是在处理超过64K长度的任务时表现出色。2.性能优势明显：Qwen2.5-14B-Instruct-1M模型不仅击败了Qwen2.5-Turbo，还在多个数据集上稳定超越GPT-4o-mini，因此可以作为现有长上下文模型的优秀开源替代。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

[heading4]Qwen2.5-1M模型-百万Tokens处理速度提升近7倍[content]版本：7B、14B两个尺寸主要优势：长文本处理能力：在处理长文本任务中稳定超越GPT-4o-mini，首次将开源Qwen模型的上下文扩展到1M长度。推理速度提升：引入基于MInference的稀疏注意力优化，处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。上下文长度扩展至100万tokens，可处理约150万汉字（相当于2部《红楼梦》）开源平台：Huggingface：https://huggingface.co/spaces/Qwen/Qwen2.5-1M-DemoModelscope：https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo