Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

原生稀疏注意力

Answer

原生稀疏注意力(Native Sparse Attention,NSA)是一种高效的超长上下文方案。DeepSeek 最新论文提出了这一机制,它通过压缩、选择和滑动窗口三种机制,提升了计算效率。在训练和推理阶段均有显著效果,前向传播速度提高 9 倍,解码速度提升 11.6 倍。其核心在于聚焦重要信息,优化注意力机制,能够训练出更聪明的模型,甚至在推理任务中表现优异。

Content generated by AI large model, please carefully verify (powered by aily)

References

通往 AGI 之路

《[最豪华大模型创业阵容!OpenAI前CTO组建,翁荔、Schulman等ChatGPT核心成员加盟](https://mp.weixin.qq.com/s/cZ2DHqXmmb8312FhedIlZA)》Thinking Machines Lab新成立,汇聚前OpenAI顶尖团队,包括前CTO Mira Murati、首席科学家John Schulman等,致力于推动人工智能研究的开放性与应用。团队承诺通过论文与代码分享,提升人机协作,推动科学与工程的突破。他们的目标是构建最先进的模型,力求“让AI为每个人服务”,开创一个知识与工具普及的未来。《[DeepSeek最新论文科普解读:NSA,物美价廉的超长上下文方案](https://mp.weixin.qq.com/s/hR91ME3uOc8Pw3J-bWgI2A)》作者马丁的面包屑,DeepSeek最新论文提出了“Native Sparse Attention”(NSA),一种高效的超长上下文方案,兼顾训练和推理阶段,显著提升模型性能。NSA通过压缩、选择和滑动窗口三种机制,提升计算效率,前向传播速度提高9倍,解码速度提升11.6倍。其核心在于聚焦重要信息,优化注意力机制,训练出更聪明的模型,甚至在推理任务中表现优异。

通义千问发布一个模型开源两个模型-一个AI视觉智能体能力大幅增强,一个百万Tokens处理速度提升近7倍

[heading4]Qwen2.5-1M模型-百万Tokens处理速度提升近7倍[content]版本:7B、14B两个尺寸主要优势:长文本处理能力:在处理长文本任务中稳定超越GPT-4o-mini,首次将开源Qwen模型的上下文扩展到1M长度。推理速度提升:引入基于MInference的稀疏注意力优化,处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。上下文长度扩展至100万tokens,可处理约150万汉字(相当于2部《红楼梦》)开源平台:Huggingface:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-DemoModelscope:https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

解析 Transformer 模型:理解 GPT-3、BERT 和 T5 背后的模型

Transformer的最后一点(也许是最具影响力的一点)是对注意力的变式,即自注意力。我们刚刚讨论的“原味”注意力帮助对齐英文和法文句子中的单词,这对于翻译非常重要。但是,如果你不是试图翻译单词,而是试图建立一个理解语言中的基本含义和模式的模型——一种可以用来做任何数量的语言任务的模型,那该怎么办?一般来说,让神经网络强大的是,它们通常会自动建立起训练数据有意义的内部表示。例如,当你检查视觉神经网络的不同层时,你会发现不同神经元负责“识别”不同的模式,比如边缘、形状,甚至像眼睛和嘴巴这样的高级结构。在文本数据上训练的模型可能自动学习了词性、语法规则以及单词是否同义。神经网络学习语言的内部表示越好,它在任何语言任务中的表现就越好。事实证明,如果注意力机制应用于输入文本本身,它同样是一种非常有效的方式。例如,下面这两个句子:“服务员,能给我账单吗?”(“Server,can I have the check?”)"我好像让服务器崩溃了"(“Looks like I just crashed the server。”)在这里,单词“server”意味着两种非常不同的意思,我们人类可以通过查看周围的单词轻松地消除歧义。自注意力使神经网络能够在单词周围的语境中理解单词。因此,当模型处理第一句话中的“服务员”(“Server”)时,它可能是“注意”单词“账单”(“check”),这有助于消除该单词代表不同意思——服务员和服务器之间的歧义。在第二个句子中,模型可能会注意单词“崩溃”(“crash”),以确定这个“服务器”(“server”)指的是一台机器。自注意力帮助神经网络消除单词歧义,做词性标注,命名实体识别,学习语义角色等等。

Others are asking
AI原生组织
以下是关于“AI 原生组织”的相关内容: 目前大多数的“AI 应用/AI 转型”还在走“数字化转型”的老路,把 AI 往现有流程上一套,讲“固化流程”“节约成本”的故事。但在技术加速迭代的当下,这样做基本等于“做出来就是过时的”,会凝固企业的业务模式,剥夺企业主动进化的能力。 现在这种情况更多反映出人们对于 AI 的焦虑,希望 AI 拿来就能用、马上起效果。但不能止于焦虑,AI 的力量应用于对未来业务的重新定义,这才是“AI 原生公司”的做法。比如在电力发明时,不应从“如何让电力赋能马车”出发,而应从“电力能创造和满足什么新的需求”出发。 AGI 的五个等级中,“组织”是最高级别,能够自动执行组织的全部业务流程,如规划、执行、反馈、迭代、资源分配和管理等。
2025-01-23
可以生成原生动漫人物的AI软件
以下是一些可以生成原生动漫人物的 AI 软件: 1. 数字人的躯壳构建方面: 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表软件是 Live2D Cubism。 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表有 UE、Unity,虚幻引擎 MetaHuman 等。个人学习在电脑配置和学习难度上有一定门槛。 AIGC:虽然省去了建模流程,直接生成数字人的展示图片,但算法生成的数字人在 ID 一致性和帧与帧的连贯性上存在弊端。典型的项目有 wav2lip等。AIGC 还有一个方向是直接生成 2D/3D 引擎的模型,但该方向还在探索中。 2. 生成式 AI 在艺术创作方面: Lensa 可以生成肖像画等内容。 3. 其他相关软件: 百川智能 BaichuanNPC 可以定制游戏角色和动漫人物,并融合角色知识库和多轮记忆,提供 Lite 和 Turbo 两种版本。 阿里巴巴 FaceChainFACT 支持零样本肖像生成,秒级速度,支持百余种定制模板,兼容 ControlNet 和 LoRA 插件。 BakedAvatar 可以从视频创建逼真 3D 头部模型,实时渲染和多视角查看,兼容多种设备,可交互性编辑。 DragNUWA 能够基于文本、图像和轨迹生成视频,用户绘制轨迹即可动态生成。
2024-11-22
根据原生二维码生成一个二维码生成一个艺术二维码
以下是根据您的需求生成艺术二维码的方法: 1. 准备工作: 前往草料网(https://cli.im/)生成自己所需内容的二维码。例如制作公众号二维码,上传原码后进行简单设置,如选择白底黑块,调整容错率(如 30%)和尺寸(如 500500px),还可进行二维码美化,选择不同形状的码眼,将码边距换成 4 个色块以扩大白色边框范围。调整好后生成并下载。 2. 安装插件与解码: 在扩展列表中搜索“QR Toolkit”并安装,安装完成后重启 webui。 打开界面,在上方的选项卡中找到该插件。 进入草料网,点击右侧的解码,上传二维码得到解码结果,并将其粘贴入插件中,以调整二维码。 3. 利用模型与调整参数: 将二维码发送到 controlnet,使用 qrcode_monster 模型,权重值保持在 1.2 1.5 之间,值越大二维码越清晰,值越小融合度更好。 通过调整参数对二维码的外观、容错率、尺寸、噪点等进行改造。 4. 设计提示词: 例如使用提示词“Rackflower,blue flower,chibi,1girl,rainbow color hair,cloud,,in garden,bokeh background,masterpiece,ultra realistic,32k,extremely detailed CG unity 8k wallpaper,best quality,”来生成艺术二维码。 此外,还有一个艺术二维码制作活动: 活动时间为 2024 年 5 月 13 日至 2024 年 5 月 18 日。 活动目标是确保群里每个人都能学会制作艺术二维码,提升个人设计技能,促进群内交流互动。 活动内容是利用提供的二维码将其转换成艺术二维码,需满足美观、可扫、长按可识别的条件。 参与方式是使用 SD 对基础二维码进行艺术化设计,并将设计好的艺术二维码保存为图片格式发送至 SD 学社微信群。 作品收集会创建一个在线文档,用于收集大家的作品。 评选方式是在 5 月 19 日举行群内投票,选出前三名最受欢迎的艺术二维码作品。 注意事项包括设计需原创,不得侵犯他人版权或商标,提交的作品视为允许在群内公开展示,并在截止日期前提交。 您也可以使用 https://www.waytoagi.com/ 自己生成二维码。
2024-09-27
有哪些在北京的ai原生公司
以下是一些在北京的 AI 原生公司及相关大模型: 百度:文心一言,链接为 https://wenxin.baidu.com/ 抖音:云雀大模型,链接为 https://www.doubao.com/ 智谱 AI:GLM 大模型,链接为 https://chatglm.cn/ 中科院:紫东太初大模型,链接为 https://xihe.mindspore.cn/modelzoo/taichu/introduce 百川智能:百川大模型,链接为 https://www.baichuanai.com/ 此外,在北京还有一些个人在 AI 领域有所涉足,例如: 梦醒:软件工程师,是网络安全和软件开发从业者,AI 新手,正在学习 coze 智能体及 AI 视频制作,对 AI 领域很有兴趣。 大可:高管,AI 探索者,目前在运营一民政注册 AI 与算力联盟,做过记者、公务员、上市公司高管。 Laura:投资人,互联网经济研究咨询出身,互联网连续创业者,企业创新战略顾问。投资了两个人工智能算法项目,参投了一个智算中心。家住通州,喜欢唱歌。
2024-09-25
现在有哪些GenAI原生应用验证了PMF?
目前,一些 GenAI 原生应用已展现出产品市场契合度(PMF)的早期成功迹象。例如,ChatGPT 成为增长最快的应用,在学生和开发者中具有很强的产品市场契合度;Midjourney 成为集体创意的灵感来源,据报道仅 11 人的团队就实现了数亿美元的收入;Character 推动了 AI 娱乐和伴侣领域的发展,创造了用户平均在应用中花费两小时的消费者“社交”应用。然而,尽管有这些成功案例,仍有许多 AI 公司尚未实现产品市场契合度(PMF)或拥有可持续的竞争优势,整个 AI 生态系统的繁荣也并非完全可持续。
2024-08-30
什么是模型的稀疏性
模型的稀疏性是指在模型中,存在大部分元素为零或接近零,只有少数元素包含重要信息的情况。在机器学习和深度学习中较为常见,例如在自然语言处理(NLP)中,嵌入层将词汇映射到高维空间,每次训练只更新一小部分词向量,导致梯度在大部分维度上为零;推荐系统中的用户物品交互矩阵等输入数据本身就是稀疏的;使用 ReLU 激活函数也可能导致稀疏梯度,因其会把所有负值输入设置为 0。 在大语言模型中,如论文提出的 QSparse 方法,通过对模型的激活值进行“稀疏化”,即只保留最重要的一部分激活值,其他置为零,可大大减少计算量和内存使用,且几乎不影响模型性能。 对于优化器,如 Adam 优化器,它对于稀疏梯度特别有效,结合了 Momentum 和自适应学习率,能捕捉稀疏信号并避免学习率过快下降,在处理稀疏数据场景如 NLP 和一些稀疏特征的机器学习任务中表现优异,但算力消耗比 SGD 高,默认参数通常能取得不错效果,特殊情况仍需调整超参数。
2025-01-04
稀疏向量有什么用,跟稠密向量油什么区别
稀疏向量和稠密向量在多个领域都有重要的应用,它们的主要区别在于元素的分布和存储方式。 稀疏向量中,大部分元素的值为零或为空,只有少数元素具有非零值。其主要用途包括: 1. 在处理大规模数据时,能够节省存储空间和计算资源,例如在自然语言处理中处理高维的词向量。 2. 对于具有稀疏特征的数据,能够更有效地表示和处理,比如在推荐系统中用户的兴趣特征。 稠密向量则是大多数元素都具有非零值。其特点和适用场景包括: 1. 更适合表示数据特征分布较为均匀的情况。 2. 在一些需要精确计算和密集运算的场景中表现较好,例如图像识别中的像素特征向量。 总的来说,选择使用稀疏向量还是稠密向量取决于具体的应用场景和数据特点。
2024-09-07
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
大语言模型、多模态、数据、算力、算法、预训练、微调、RAG、自注意力机制、transformer、token、神经网络、向量、scaling law这些内容的含义
以下是对您所提到的这些内容含义的解释: 大语言模型:是一种基于大量文本数据进行训练的语言处理模型,其工作原理包括训练数据、算力、模型参数等。在训练数据一致的情况下,模型参数越大能力越强。 多模态:指能够处理多种不同类型的数据模态,如文本、图像、音频等,并将它们融合进行理解和生成。 数据:是大语言模型训练和应用的基础,包括各种文本、图像、音频等信息。 算力:指用于支持大语言模型训练和运行的计算能力。 算法:是大语言模型实现各种功能的数学和逻辑方法。 预训练:在大语言模型中,先在大规模数据上进行无特定任务的初步训练。 微调:基于通用大模型,针对特定领域任务提供数据进行学习和调整,以适应特定领域的需求。 RAG:检索增强生成,通过引用外部数据源为模型做数据补充,适用于动态知识更新需求高的任务。其工作流程包括检索、数据库索引、数据索引、分块、嵌入和创建索引、增强、生成等步骤。 自注意力机制:是 Transformer 架构中的重要部分,能理解上下文和文本关联,通过不断检索和匹配来寻找依赖关系,处理词和词之间的位置组合,预测下一个词的概率。 Transformer:是大语言模型训练架构,用于翻译等任务,具备自注意力机制。 Token:在自然语言处理中,是文本的基本单位。 神经网络:是大语言模型的基础架构,模拟人脑神经元的连接和信息处理方式。 向量:在大语言模型中,用于表示文本等数据的数学形式。 Scaling Law:关于大语言模型规模和性能之间关系的规律。
2025-02-18
请把机器学习相关和大模型相关的知识点形成一个结构化的知识树,包括但是不限于算法、框架、工具、注意力机制等
以下是一个关于机器学习和大模型的结构化知识树: 一、基础数学知识 1. 线性代数 2. 概率论 3. 优化理论 二、机器学习基础 1. 监督学习 分类 回归 2. 无监督学习 聚类 3. 强化学习 三、深度学习 1. 神经网络 卷积网络 递归网络 注意力机制 2. Transformer 模型 四、自然语言处理 1. 语言模型 2. 文本分类 3. 机器翻译 五、计算机视觉 1. 图像分类 2. 目标检测 3. 语义分割 六、前沿领域 1. 大模型 2. 多模态 AI 3. 自监督学习 4. 小样本学习 七、工具与框架 1. TensorFlow 2. PyTorch 八、应用领域 1. 自然语言处理 2. 计算机视觉 3. 推荐系统 九、数据处理 1. 数据采集 2. 数据清洗 3. 特征工程 十、模型部署 1. 模型优化 2. 模型服务 十一、科研实践 1. 论文阅读 2. 模型实现 3. 实验设计 十二、行业实践 1. 项目实战 2. 案例分析
2025-02-11
我想找一些关于多头自注意力机制的文章
以下是为您找到的关于多头自注意力机制的文章: 1. 《Transformer 模型的原理》:介绍了 Transformer 模型使用自注意力机制,能够同时考虑输入序列中所有位置的信息。其中多头注意力机制可以并行地学习多个注意力表示,从不同的子空间中学习不同的特征表示。 2. 《图解自注意力机制》:来自清华大学数据软件团队,详细解释了自注意力机制的概念和原理,包括单个输出的计算和矩阵形式的表示,以及多头自注意力和位置编码的应用。 3. 【AI 学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐):提到 Transformer 有自注意力机制和位置编码,编码器和解码器都有多头注意力层,且解码器与编码器的多头注意力层不一样,并介绍了 Transformer 的一些变种。
2025-01-26