网易首页 > 网易号 > 正文 申请入驻

DeepSeek突破H800性能上限,FlashMLA重磅开源,算力成本还能降

0
分享至

白交 发自 凹非寺

量子位 | 公众号 QbitAI

DeepSeek开源周第一天,降本大法公开——

FlashMLA,直接突破H800计算上限。

它是为Hopper GPU开发的高效MLA解码内核,专门针对可变长度序列进行了优化,目前已经投入生产。

MLA,正是DeepSeek提出的创新注意力架构。从V2开始,MLA使得DeepSeek在系列模型中实现成本大幅降低,但是计算、推理性能仍能与顶尖模型持平。

按照官方介绍来说,FlashMLA使用之后,H800可以达到3000GB/s内存,实现580TFLOPS计算性能

网友们纷纷点赞:向工程团队致以崇高的敬意,从Hopper的张量核中挤出了每一个FLOP。这就是我们将 LLM 服务推向新前沿的方式!

已经有网友用上了。

开源第一天:FlashMLA

目前GitHub页面已经更新。短短一小时,Star星数已经超过1.2k。

此次已经发布:

  • 支持BF16;
  • 分页KV缓存,块大小为 64

快速启动:

环境要求:

  • Hopper GPU
  • CUDA 12.3 及以上版本
  • PyTorch 2.0 及以上版本

在项目的最后,它还表示,这是受到了FlashAttention 2&3英伟达CUTLASS项目的启发。

FlashAttention是能实现快速且内存高效的精确注意力,主流大模型都有在用。最新的第三代,可以让H100利用率飙升至75%训练速度提升1.5-2倍,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量75%,更充分利用计算资源,此前只能做到35%。

核心作者是Tri Dao,普林斯顿大牛,Together AI的首席科学家。

而英伟达CUTLASS是CUDA C++ 模板抽象的集合,用于在 CUDA 内实现高性能矩阵-矩阵乘法 (GEMM) 和所有级别和规模的相关计算。

MLA,DeepSeek基本架构

最后再来说说,MLA,多头潜在注意力机制,DeepSeek系列模型的基本架构,旨在优化Transformer模型的推理效率与内存使用,同时保持模型性能。

它通过低秩联合压缩技术,将多头注意力中的键(Key)和值(Value)矩阵投影到低维潜在空间,从而显著减少键值缓存(KV Cache)的存储需求。这种方法在长序列处理中尤为重要,因为传统方法需要存储完整的KV矩阵,而MLA通过压缩仅保留关键信息。

V2版本中,这一创新性架构把显存占用降到了过去最常用的MHA架构的5%-13%,实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

而在V3,这一降本提速就更为明显,直接让DeepSeek吸引全球目光。

也就在今天,DeepSeek-R1 在HuggingFace上获得了超过10000个赞,成为该平台近150万个模型之中最受欢迎的大模型。

HuggingFace CEO发文公布了这一喜讯。

The whale is making waves!鲸鱼正在掀起波浪!

好了期待一下,接下来的四天会发些什么呢?

GitHub链接:
https://github.com/deepseek-ai/FlashMLA
参考链接:
https://x.com/deepseek_ai/status/1893836827574030466

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
5月1日起全额缴纳社保,全民创业时代正式谢幕,但请不要难过

5月1日起全额缴纳社保,全民创业时代正式谢幕,但请不要难过

月满大江流
2026-05-06 17:01:05
对话宋斐明:纯电豪华市场中,AUDI如何保证差异化竞争力

对话宋斐明:纯电豪华市场中,AUDI如何保证差异化竞争力

车云网
2026-04-30 16:22:12
上海天气即将大转折!雾、雨、降温连环上线,网友:起起伏伏,说变就变

上海天气即将大转折!雾、雨、降温连环上线,网友:起起伏伏,说变就变

极目新闻
2026-05-06 20:21:25
高基数再破局!海珠一季度6.8%增速,解锁数字经济“常青密码”

高基数再破局!海珠一季度6.8%增速,解锁数字经济“常青密码”

智谷趋势
2026-04-30 19:41:12
遭21岁小将横扫!梁靖崑惨败世排41王皓场边沮丧 出战5次仅赢2场

遭21岁小将横扫!梁靖崑惨败世排41王皓场边沮丧 出战5次仅赢2场

颜小白的篮球梦
2026-05-06 17:59:35
5月1日起,抽烟,买烟全变天!违规直接重罚,烟民、商家必看

5月1日起,抽烟,买烟全变天!违规直接重罚,烟民、商家必看

王二哥老搞笑
2026-05-05 21:10:10
当卖国贼,是有门槛的

当卖国贼,是有门槛的

柴差说
2026-05-06 17:30:32
吴宜泽夺冠,最激动的除卖房托举他的父母,还有敢扑进他怀里的她

吴宜泽夺冠,最激动的除卖房托举他的父母,还有敢扑进他怀里的她

林轻吟
2026-05-06 17:00:10
立夏后,少吃豆腐白菜,多吃4种“冠军菜”,应季好吃还便宜

立夏后,少吃豆腐白菜,多吃4种“冠军菜”,应季好吃还便宜

阿龙美食记
2026-05-06 10:50:21
48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

近史博览
2026-05-06 14:42:13
20多名美议员施压特朗普,要求承认以色列拥核

20多名美议员施压特朗普,要求承认以色列拥核

参考消息
2026-05-06 19:11:33
快讯!伊朗变天了!

快讯!伊朗变天了!

达文西看世界
2026-05-06 09:44:12
三峡“无缝大坝”缔造者落马!功勋满身,却没管住心中一道缝

三峡“无缝大坝”缔造者落马!功勋满身,却没管住心中一道缝

甜柠聊史
2026-03-25 18:43:05
打虎!合肥市委书记费高云被查

打虎!合肥市委书记费高云被查

新京报政事儿
2026-05-06 16:24:03
中国驻以色列使馆发言人就以色列有关议员窜访台湾答记者问

中国驻以色列使馆发言人就以色列有关议员窜访台湾答记者问

界面新闻
2026-05-06 21:23:12
谁把女游客推下了悬崖?

谁把女游客推下了悬崖?

宾语观世
2026-05-06 20:10:49
英媒:吴宜泽吞云吐雾照片让老球迷更喜欢,他风格很像飓风希金斯

英媒:吴宜泽吞云吐雾照片让老球迷更喜欢,他风格很像飓风希金斯

杨华评论
2026-05-06 15:14:00
吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

吐槽4只皮皮虾1035元贵的游客已获赔付,市监局称绝不姑息

映射生活的身影
2026-05-06 19:29:52
“四川华蓥女游客玩瀑布秋千坠亡”警方介入,当地称家属已和解,目击者:其撞到瀑布凸出处大石;景区已清空账号

“四川华蓥女游客玩瀑布秋千坠亡”警方介入,当地称家属已和解,目击者:其撞到瀑布凸出处大石;景区已清空账号

大象新闻
2026-05-06 15:42:10
“台独”顽固分子刘世芳亲属已被在大陆台企解职

“台独”顽固分子刘世芳亲属已被在大陆台企解职

界面新闻
2026-05-06 21:01:54
2026-05-06 21:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12578文章数 176461关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

知情人士:伊朗将同意将铀浓缩材料运出伊朗

头条要闻

知情人士:伊朗将同意将铀浓缩材料运出伊朗

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

艺术
时尚
家居
数码
旅游

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

春天穿“黑色”太沉闷?学会这些搭配小技巧,显瘦减龄还洋气

家居要闻

大胆前卫 时尚大宅

数码要闻

守护全家饮食健康:微波炉哪个牌子好?十大排名长效抑菌防霉优选

旅游要闻

体验式消费、IP联名活动 “五一”假期消费市场持续上新

无障碍浏览 进入关怀版