FlashMLA

Answer

以下是关于 FlashMLA 的相关信息：

2 月 24 日，DeepSeek 发布了 FlashMLA 优化 H800 GPU。
2 月 25 日的社区动态中提到，DeepSeek 开源的 FlashMLA 是针对 NVIDIA Hopper 架构的高效 MLA 解码内核，优化了长序列的推理速度，达到 3000 GB/s 内存带宽和 580 TFLOPS 计算性能。其核心在于多头潜在注意力（MLA）加速解码，支持动态序列，能完美应对复杂输入。

Content generated by AI large model, please carefully verify (powered by aily)

References

?Xiaohu.AI日报「2月24日」✨✨✨✨✨✨✨✨1⃣️?通义千问新域名上线：启用了海外版域名：[http://Qwen.ai](http://Qwen.ai)国内版指向：[http://TongYi.ai](http://TongYi.ai)阿里巴巴宣布未来三年投入超3800亿元，创下中国民企AI硬件基础设施投资记录。?[https://x.com/imxiaohu/status/1893921578234040703](https://x.com/imxiaohu/status/1893921578234040703)2⃣️?RAI研究院强化学习新突破：Spot奔跑速度提升至原来的3倍，达到5.2 m/s，AI自主摸索出独特奔跑方式。新型机器人平台UMV实现自平衡、倒退骑行及跳跃，充分展现强化学习潜力。摆脱传统固定规则，适应动态复杂环境，展现自主学习和优化能力。?[https://x.com/imxiaohu/status/1893860369141264537](https://x.com/imxiaohu/status/1893860369141264537)?详细：[https://www.xiaohu.ai/c/xiaohu-ai/rai-ai-ai](https://www.xiaohu.ai/c/xiaohu-ai/rai-ai-ai)3⃣️?Deepseek发布FlashMLA优化H800 GPU：

XiaoHu.AI日报

2月25日社区动态速览

《[一文详解DeepSeek开源的FlashMLA，他们才是真正的“源神”。](https://mp.weixin.qq.com/s/I3UMh19L8mQnAewBMa9YqQ)》DeepSeek开源的FlashMLA是针对NVIDIA Hopper架构的高效MLA解码内核，优化了长序列的推理速度，达到3000 GB/s内存带宽和580 TFLOPS计算性能。它的核心在于多头潜在注意力（MLA）加速解码，支持动态序列，完美应对复杂输入。

Others are asking