原生稀疏注意力(Native Sparse Attention,NSA)是一种高效的超长上下文方案。DeepSeek 最新论文提出了这一机制,它通过压缩、选择和滑动窗口三种机制,提升了计算效率。在训练和推理阶段均有显著效果,前向传播速度提高 9 倍,解码速度提升 11.6 倍。其核心在于聚焦重要信息,优化注意力机制,能够训练出更聪明的模型,甚至在推理任务中表现优异。
《[最豪华大模型创业阵容!OpenAI前CTO组建,翁荔、Schulman等ChatGPT核心成员加盟](https://mp.weixin.qq.com/s/cZ2DHqXmmb8312FhedIlZA)》Thinking Machines Lab新成立,汇聚前OpenAI顶尖团队,包括前CTO Mira Murati、首席科学家John Schulman等,致力于推动人工智能研究的开放性与应用。团队承诺通过论文与代码分享,提升人机协作,推动科学与工程的突破。他们的目标是构建最先进的模型,力求“让AI为每个人服务”,开创一个知识与工具普及的未来。《[DeepSeek最新论文科普解读:NSA,物美价廉的超长上下文方案](https://mp.weixin.qq.com/s/hR91ME3uOc8Pw3J-bWgI2A)》作者马丁的面包屑,DeepSeek最新论文提出了“Native Sparse Attention”(NSA),一种高效的超长上下文方案,兼顾训练和推理阶段,显著提升模型性能。NSA通过压缩、选择和滑动窗口三种机制,提升计算效率,前向传播速度提高9倍,解码速度提升11.6倍。其核心在于聚焦重要信息,优化注意力机制,训练出更聪明的模型,甚至在推理任务中表现优异。
[heading4]Qwen2.5-1M模型-百万Tokens处理速度提升近7倍[content]版本:7B、14B两个尺寸主要优势:长文本处理能力:在处理长文本任务中稳定超越GPT-4o-mini,首次将开源Qwen模型的上下文扩展到1M长度。推理速度提升:引入基于MInference的稀疏注意力优化,处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。上下文长度扩展至100万tokens,可处理约150万汉字(相当于2部《红楼梦》)开源平台:Huggingface:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-DemoModelscope:https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
Transformer的最后一点(也许是最具影响力的一点)是对注意力的变式,即自注意力。我们刚刚讨论的“原味”注意力帮助对齐英文和法文句子中的单词,这对于翻译非常重要。但是,如果你不是试图翻译单词,而是试图建立一个理解语言中的基本含义和模式的模型——一种可以用来做任何数量的语言任务的模型,那该怎么办?一般来说,让神经网络强大的是,它们通常会自动建立起训练数据有意义的内部表示。例如,当你检查视觉神经网络的不同层时,你会发现不同神经元负责“识别”不同的模式,比如边缘、形状,甚至像眼睛和嘴巴这样的高级结构。在文本数据上训练的模型可能自动学习了词性、语法规则以及单词是否同义。神经网络学习语言的内部表示越好,它在任何语言任务中的表现就越好。事实证明,如果注意力机制应用于输入文本本身,它同样是一种非常有效的方式。例如,下面这两个句子:“服务员,能给我账单吗?”(“Server,can I have the check?”)"我好像让服务器崩溃了"(“Looks like I just crashed the server。”)在这里,单词“server”意味着两种非常不同的意思,我们人类可以通过查看周围的单词轻松地消除歧义。自注意力使神经网络能够在单词周围的语境中理解单词。因此,当模型处理第一句话中的“服务员”(“Server”)时,它可能是“注意”单词“账单”(“check”),这有助于消除该单词代表不同意思——服务员和服务器之间的歧义。在第二个句子中,模型可能会注意单词“崩溃”(“crash”),以确定这个“服务器”(“server”)指的是一台机器。自注意力帮助神经网络消除单词歧义,做词性标注,命名实体识别,学习语义角色等等。