网易首页 > 网易号 > 正文 申请入驻

DeepSeek 开源周首日:开源 FlashMLA,AI 推理速度再进化!

0
分享至

DeepSeek 开源周day1 推出FlashMLA! 专为Hopper 架构 GPU打造的超高效 MLA (Multi-Layer Attention) 解码内核,现在已经正式开源啦!

什么是 FlashMLA?

简单来说,FlashMLA就是一个为了让 英伟达Hopper架构 GPU跑得更快更溜的MLA 解码加速器! 它主要针对变长序列 (variable-length sequences)的场景进行了深度优化,尤其是在大模型推理服务中,效率提升简直肉眼可见!

根据官方介绍,FlashMLA 目前已经在生产环境中使用,稳定性杠杠的!

FlashMLA 有啥亮点? ✨

  • ✅ BF16 精度支持:紧跟潮流,支持最新的 BF16 精度,性能与效率兼得!

  • ✅ Paged KV Cache (页式键值缓存):采用页式 KV 缓存,块大小为 64,更精细的内存管理,效率更高!

  • ⚡️ 极致性能:H800 SXM5GPU 上,内存受限场景下可达3000 GB/s的惊人速度,计算受限场景也能达到580 TFLOPS的算力! 而且,这一切都基于CUDA 12.6实现的!

快速上手,体验飞一般的感觉!

DeepSeek AI 也非常贴心地给出了快速上手指南,只需简单几步,就能体验 FlashMLA 的强大!

安装:

python setup.py install

复制

跑个 Benchmark 试试水:

python tests/test_flash_mla.py

GitHub 仓库传送门:https://github.com/deepseek-ai/FlashMLA

技术细节 & 引用

FlashMLA 的背后,离不开对FlashAttention 2&3以及cutlass等优秀项目的学习和借鉴。DeepSeek AI 在这些基础上进行了创新和优化,才有了今天的 FlashMLA。

温馨提示:FlashMLA 需要Hopper 架构 GPUCUDA 12.3 及以上以及PyTorch 2.0 及以上版本支持哦! 使用前请确保你的环境满足要求!

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

求赞

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
机构预测净利大增超10倍的周期股,10股上榜

机构预测净利大增超10倍的周期股,10股上榜

数据宝
2026-01-21 12:48:21
上任一周年,川普的破坏力有多大?

上任一周年,川普的破坏力有多大?

近距离
2026-01-20 19:20:15
钱再多有什么用?87岁李双江一家4口的现状,给所有男人提了个醒

钱再多有什么用?87岁李双江一家4口的现状,给所有男人提了个醒

近史谈
2026-01-21 12:03:54
贝克汉姆长子曝光母亲婚礼抢舞还跳不雅舞蹈,嘉宾现场实锤

贝克汉姆长子曝光母亲婚礼抢舞还跳不雅舞蹈,嘉宾现场实锤

土澳的故事
2026-01-20 23:49:08
急了!阿森纳球星公开跪求续约:我要留队夺冠!

急了!阿森纳球星公开跪求续约:我要留队夺冠!

奶盖熊本熊
2026-01-21 07:01:15
通过审批!周杰伦杭州演唱会连开三场,你准备抢票吗?

通过审批!周杰伦杭州演唱会连开三场,你准备抢票吗?

大象新闻
2026-01-20 21:45:12
曼联重磅互换!5000 万水货当筹码,冲 20 岁英超新星

曼联重磅互换!5000 万水货当筹码,冲 20 岁英超新星

澜归序
2026-01-21 03:49:21
嫣然医院若关停,附近居民的话令网友破防:“饭菜全都是免费的”

嫣然医院若关停,附近居民的话令网友破防:“饭菜全都是免费的”

行走的知识库
2026-01-21 00:41:48
东契奇38+13+10无缘今日最佳!乔治43分落选,只因快哥13投轰40分

东契奇38+13+10无缘今日最佳!乔治43分落选,只因快哥13投轰40分

你的篮球频道
2026-01-21 14:19:26
中方潇洒离场,大规模抛售美债,马斯克已通知白宫:美基本没救了

中方潇洒离场,大规模抛售美债,马斯克已通知白宫:美基本没救了

古事寻踪记
2026-01-21 07:09:44
短短24小时,美军发起大规模突袭,特朗普罕见失声,又有一国遭殃

短短24小时,美军发起大规模突袭,特朗普罕见失声,又有一国遭殃

安珈使者啊
2026-01-19 22:03:51
巴奴向嫣然天使儿童医院捐赠100万元

巴奴向嫣然天使儿童医院捐赠100万元

财经网
2026-01-20 19:32:52
研究了1400多名百岁老人后发现:做到这5点,你也能活过100岁

研究了1400多名百岁老人后发现:做到这5点,你也能活过100岁

DrX说
2026-01-13 16:53:24
顾不上中国,美航母从南海直奔中东,特朗普动真格,7天后开打?

顾不上中国,美航母从南海直奔中东,特朗普动真格,7天后开打?

阿芒娱乐说
2026-01-21 17:48:27
全国检察长会议在京召开

全国检察长会议在京召开

安小检
2026-01-20 17:15:33
溢价超430%!大牛股跨界半导体一度跌停,公司回应

溢价超430%!大牛股跨界半导体一度跌停,公司回应

21世纪经济报道
2026-01-21 13:29:06
黄元申:曾因赵雅芝剃度出家,如今美国隐居,父母已逝妻儿远离他

黄元申:曾因赵雅芝剃度出家,如今美国隐居,父母已逝妻儿远离他

查尔菲的笔记
2026-01-20 19:23:04
拼多多,被处罚

拼多多,被处罚

新京报政事儿
2026-01-21 16:10:59
52岁陈慧琳在广州大排档,大口吃面不忌碳水,太让人羡慕啦

52岁陈慧琳在广州大排档,大口吃面不忌碳水,太让人羡慕啦

喜欢历史的阿繁
2026-01-21 11:17:35
勇士惨败!库明加20+5+2,赛后格林走入场内,一把抱住巴恩斯

勇士惨败!库明加20+5+2,赛后格林走入场内,一把抱住巴恩斯

担酒
2026-01-21 13:44:16
2026-01-21 19:08:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1028文章数 394关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

头条要闻

欧盟被指有意将中企排除出欧洲移动通信网络 中方回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

西贝估值100亿?最新融资约13亿元

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

家居
教育
旅游
时尚
本地

家居要闻

褪去浮华 触达松弛与欣喜

教育要闻

规则有了,但落实不了,该怎么办?

旅游要闻

雪山“围雪收费”:别让模糊标价偷走游客选择权丨中听

告别93岁时尚传奇Valentino:他留下了全世界最美的“红”

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

无障碍浏览 进入关怀版