Chat with Wiki - 长token处理

Answer

以下是关于长 token 处理的相关信息：

通义千问方面：

开源的 Qwen2.5-1M 大模型推出 7B、14B 两个尺寸，在处理长文本任务中稳定超越 GPT-4o-mini，同时开源推理框架，在处理百万级别长文本输入时可实现近 7 倍的提速，首次将开源 Qwen 模型的上下文扩展到 1M 长度。
在上下文长度为 100 万 Tokens 的大海捞针任务中，Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息，仅有 7B 模型出现少量错误。
对于更复杂的长上下文理解任务，通义官方选择了[RULER]、[LV-Eval]和[LongbenchChat]等测试集。
Qwen2.5-1M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本，特别是在处理超过 64K 长度的任务时表现出色。Qwen2.5-14B-Instruct-1M 模型不仅击败了 Qwen2.5-Turbo，还在多个数据集上稳定超越 GPT-4o-mini，可作为现有长上下文模型的优秀开源替代。

OpenAI API 方面：

模型通过将文本分解为标记（Token）来理解和处理文本，Token 可以是单词，也可以是字符块。
对于英文文本，1 个 Token 大约相当于 4 个字符或 0.75 个单词。
给定的 API 请求中处理的 Token 数量取决于输入和输出长度，文本提示词和生成的补全合起来不能超过模型的最大上下文长度（对于大多数模型，这是 2048 个 Token，或大约 1500 个单词），可查看分词器工具了解更多信息。

Content generated by AI large model, please carefully verify (powered by aily)

References

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

本次开源的Qwen2.5-1M大模型，我们推出7B、14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini；同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。这也是我们首次将开源Qwen模型的上下文扩展到1M长度。1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》[heading2]长文本处理能力[content]在上下文长度为100万Tokens的大海捞针（Passkey Retrieval）任务中，Qwen2.5-1M能够准确地从1M长度的文档中检索出隐藏信息，仅有7B模型出现了少量错误。对于更复杂的长上下文理解任务，通义官方选择了[RULER](https://github.com/hsiehjackson/RULER)、[LV-Eval](https://github.com/infinigence/LVEval)和[LongbenchChat](https://github.com/THUDM/LongAlign)，这些测试集也在[此博客](https://qwenlm.github.io/zh/blog/qwen2.5-turbo/#more-complex-long-text-tasks)中进行了介绍。从这些结果中，我们可以得出以下几点关键结论：1.显著超越128K版本：Qwen2.5-1M系列模型在大多数长上下文任务中显著优于之前的128K版本，特别是在处理超过64K长度的任务时表现出色。2.性能优势明显：Qwen2.5-14B-Instruct-1M模型不仅击败了Qwen2.5-Turbo，还在多个数据集上稳定超越GPT-4o-mini，因此可以作为现有长上下文模型的优秀开源替代。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

[heading4]Qwen2.5-1M模型-百万Tokens处理速度提升近7倍[content]版本：7B、14B两个尺寸主要优势：长文本处理能力：在处理长文本任务中稳定超越GPT-4o-mini，首次将开源Qwen模型的上下文扩展到1M长度。推理速度提升：引入基于MInference的稀疏注意力优化，处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。上下文长度扩展至100万tokens，可处理约150万汉字（相当于2部《红楼梦》）开源平台：Huggingface：https://huggingface.co/spaces/Qwen/Qwen2.5-1M-DemoModelscope：https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

快速开始

OpenAI API可以应用于几乎所有涉及生成自然语言、代码或图像的任务。我们提供了一系列不同能力级别的[模型](https://ywh1bkansf.feishu.cn/wiki/R70MwasSpik2tgkCr7dc9eTmn0o)，适用于不同任务的，并且能够[微调（Fine-tune）](https://ywh1bkansf.feishu.cn/wiki/ATYCwS5RRibGXNkvoC4ckddLnLf)您自己的自定义模型。这些模型可以用于从内容生成到语义搜索和分类的所有领域。[heading2]提示词Prompts[content]设计提示词本质上就是对模型进行“编程”，这通常是通过提供一些指令或几个示例来完成。这与大多数其他NLP服务不同，后者是为单个任务设计的，例如情绪分类或命名实体识别。相反，补全（Completions）和聊天补全（Chat Completions）几乎可用于任何任务，包括内容或代码生成、摘要、扩展、对话、创意写作、风格转换等。[heading2]标记Token[content]我们的模型通过将文本分解为标记（Token）来理解和处理文本。Token可以是单词，也可以是字符块。例如，单词“hamburger”被分解成标记“ham”、“bur”和“ger”，而很短且常见的单词像“pear”是一个Token。许多Token以空格开头，例如“hello”和“bye”。在给定的API请求中处理的Token数量取决于您的输入和输出长度。作为一个粗略的经验法则，对于英文文本，1个Token大约相当于4个字符或0.75个单词。要记住的一个限制是，您的文本提示词和生成的补全合起来不能超过模型的最大上下文长度（对于大多数模型，这是2048个Token，或大约1500个单词）。可以查看我们的[分词器工具](https://platform.openai.com/tokenizer)来了解有关文本如何转换为Token的更多信息。