Chat with Wiki - 原生稀疏注意力

Answer

原生稀疏注意力（Native Sparse Attention，NSA）是一种高效的超长上下文方案。DeepSeek 最新论文提出了这一机制，它通过压缩、选择和滑动窗口三种机制，提升了计算效率。在训练和推理阶段均有显著效果，前向传播速度提高 9 倍，解码速度提升 11.6 倍。其核心在于聚焦重要信息，优化注意力机制，能够训练出更聪明的模型，甚至在推理任务中表现优异。

Content generated by AI large model, please carefully verify (powered by aily)

References

通往 AGI 之路

《[最豪华大模型创业阵容！OpenAI前CTO组建，翁荔、Schulman等ChatGPT核心成员加盟](https://mp.weixin.qq.com/s/cZ2DHqXmmb8312FhedIlZA)》Thinking Machines Lab新成立，汇聚前OpenAI顶尖团队，包括前CTO Mira Murati、首席科学家John Schulman等，致力于推动人工智能研究的开放性与应用。团队承诺通过论文与代码分享，提升人机协作，推动科学与工程的突破。他们的目标是构建最先进的模型，力求“让AI为每个人服务”，开创一个知识与工具普及的未来。《[DeepSeek最新论文科普解读：NSA，物美价廉的超长上下文方案](https://mp.weixin.qq.com/s/hR91ME3uOc8Pw3J-bWgI2A)》作者马丁的面包屑，DeepSeek最新论文提出了“Native Sparse Attention”（NSA），一种高效的超长上下文方案，兼顾训练和推理阶段，显著提升模型性能。NSA通过压缩、选择和滑动窗口三种机制，提升计算效率，前向传播速度提高9倍，解码速度提升11.6倍。其核心在于聚焦重要信息，优化注意力机制，训练出更聪明的模型，甚至在推理任务中表现优异。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强，一个百万Tokens处理速度提升近7倍

[heading4]Qwen2.5-1M模型-百万Tokens处理速度提升近7倍[content]版本：7B、14B两个尺寸主要优势：长文本处理能力：在处理长文本任务中稳定超越GPT-4o-mini，首次将开源Qwen模型的上下文扩展到1M长度。推理速度提升：引入基于MInference的稀疏注意力优化，处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。上下文长度扩展至100万tokens，可处理约150万汉字（相当于2部《红楼梦》）开源平台：Huggingface：https://huggingface.co/spaces/Qwen/Qwen2.5-1M-DemoModelscope：https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

解析 Transformer 模型：理解 GPT-3、BERT 和 T5 背后的模型

Transformer的最后一点（也许是最具影响力的一点）是对注意力的变式，即自注意力。我们刚刚讨论的“原味”注意力帮助对齐英文和法文句子中的单词，这对于翻译非常重要。但是，如果你不是试图翻译单词，而是试图建立一个理解语言中的基本含义和模式的模型——一种可以用来做任何数量的语言任务的模型，那该怎么办？一般来说，让神经网络强大的是，它们通常会自动建立起训练数据有意义的内部表示。例如，当你检查视觉神经网络的不同层时，你会发现不同神经元负责“识别”不同的模式，比如边缘、形状，甚至像眼睛和嘴巴这样的高级结构。在文本数据上训练的模型可能自动学习了词性、语法规则以及单词是否同义。神经网络学习语言的内部表示越好，它在任何语言任务中的表现就越好。事实证明，如果注意力机制应用于输入文本本身，它同样是一种非常有效的方式。例如，下面这两个句子：“服务员，能给我账单吗？”(“Server,can I have the check?”)"我好像让服务器崩溃了"（“Looks like I just crashed the server。”)在这里，单词“server”意味着两种非常不同的意思，我们人类可以通过查看周围的单词轻松地消除歧义。自注意力使神经网络能够在单词周围的语境中理解单词。因此，当模型处理第一句话中的“服务员”（“Server”）时，它可能是“注意”单词“账单”（“check”），这有助于消除该单词代表不同意思——服务员和服务器之间的歧义。在第二个句子中，模型可能会注意单词“崩溃”（“crash”），以确定这个“服务器”（“server”）指的是一台机器。自注意力帮助神经网络消除单词歧义，做词性标注，命名实体识别，学习语义角色等等。