Chat with Wiki - 长文本模型有哪些

Answer

以下是一些常见的长文本模型：

聊天模型：如 GPT、Claude 3 等。
Base 模型：例如 Yi-34 开源模型。
百川 192K 的闭源模型，对于 6 万字的长文本，其推理能力和回答效果优秀。
通义千问的 Qwen2.5-1M 大模型，推出 7B、14B 两个尺寸，在处理长文本任务中稳定超越 GPT-4o-mini，且开源推理框架在处理百万级别长文本输入时可实现近 7 倍的提速。
文心一言 4.0、智谱清言、KimiChat 等国产大模型在长文本归纳总结能力方面也有所涉及。

Content generated by AI large model, please carefully verify (powered by aily)

References

质朴发言：大模型未来发展：RAG vs 长文本，谁更胜一筹？｜Z 沙龙第 8 期

随着大模型上下文窗口长度不断增加，各个厂商对于文本生成模型呈现出“军备竞赛”的态势。目前，主流的文本生成模型是聊天模型，比如GPT、Claude 3等，也有少部分Base模型，例如Yi-34开源模型。两位技术研究人员分享了他们对于大模型的看法：用户使用最多的是GPT，但对外开放的版本性能较差，用户交互端无法传输大文件，只能通过API接口上传。月之暗面的Kimi模型大海捞针测试分数很高，但实际使用效果没有达到理想状态。百川192K的闭源模型，对于6万字的长文本，其表现的推理能力和回答效果很优秀。各种长文本的跑分数据，最高的是Claude 3模型。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

本次开源的Qwen2.5-1M大模型，我们推出7B、14B两个尺寸，均在处理长文本任务中稳定超越GPT-4o-mini；同时开源推理框架，在处理百万级别长文本输入时可实现近7倍的提速。这也是我们首次将开源Qwen模型的上下文扩展到1M长度。1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》[heading2]长文本处理能力[content]在上下文长度为100万Tokens的大海捞针（Passkey Retrieval）任务中，Qwen2.5-1M能够准确地从1M长度的文档中检索出隐藏信息，仅有7B模型出现了少量错误。对于更复杂的长上下文理解任务，通义官方选择了[RULER](https://github.com/hsiehjackson/RULER)、[LV-Eval](https://github.com/infinigence/LVEval)和[LongbenchChat](https://github.com/THUDM/LongAlign)，这些测试集也在[此博客](https://qwenlm.github.io/zh/blog/qwen2.5-turbo/#more-complex-long-text-tasks)中进行了介绍。从这些结果中，我们可以得出以下几点关键结论：1.显著超越128K版本：Qwen2.5-1M系列模型在大多数长上下文任务中显著优于之前的128K版本，特别是在处理超过64K长度的任务时表现出色。2.性能优势明显：Qwen2.5-14B-Instruct-1M模型不仅击败了Qwen2.5-Turbo，还在多个数据集上稳定超越GPT-4o-mini，因此可以作为现有长上下文模型的优秀开源替代。

小七姐：文心一言4.0、智谱清言、KimiChat 小样本测评

测评三家国产大模型，以同组提示词下ChatGPT 4.0生成的内容做对标参照[智谱清言](https://chatglm.cn/main/detail)[文心一言4.0](https://yiyan.baidu.com/)[Kimi Chat](https://kimi.moonshot.cn/chat/)[heading3]二、能力考量[content]复杂提示词理解和执行（结构化提示词）推理能力（CoT表现）文本生成能力（写作要求执行）提示词设计能力（让模型设计提示词）长文本归纳总结能力（论文阅读）[heading3]三、测评轮次[heading4]第一轮：复杂提示词理解和执行[content]1.任务一：Markdown+英文title提示词测试，1个任务4个模型（4次）2.任务二：Markdown+中文title提示词测试，1个任务4个模型（4次）3.任务三：中文title+自然段落提示词测试，1个任务4个模型（4次）[heading4]第二轮：推理能力（CoT表现）[content]逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第三轮：文本生成能力（写作要求执行）[content]根据提示词生成文本任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第四轮：提示词设计能力（让模型设计提示词）[content]按提示词要求生成提示词，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）[heading4]第五轮：长文本归纳总结能力（论文阅读）[content]按提供的长文本（上传或在线）进行归纳总结，逐步推理任务，遍历3个不同类型任务+4个大模型（12次）