网易首页 > 网易号 > 正文 申请入驻

号称1200万token上下文的模型来了,数据亮眼但疑点重重

0
分享至



当地时间 5 月 5 日,迈阿密一家名为 Subquadratic 的公司走出隐身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 称作“a major breakthrough in LLM intelligence”(LLM 智能领域的重大突破),声称这是首个完全基于次平方稀疏注意力(Subquadratic Sparse Attention,SSA)架构的前沿模型,1,200 万 token 上下文,1M token 场景下比 FlashAttention 快 52 倍,成本不到 Claude Opus 的 5%。同日宣布完成 2,900 万美元种子轮,估值 5 亿美元。

融资由 Tinder 联合创始人 Justin Mateen 旗下 JAM Fund 与前软银愿景基金合伙人 Javier Villamizar 领投,参投方包括 Anthropic、OpenAI、Stripe、Brex 的早期投资人。CEO Justin Dangel 是连续创业者,履历集中在健康科技、保险科技和消费品。

CTO Alex Whedon 此前在 Meta 担任软件工程师,之后在咨询公司 TribeAI 出任 Head of Generative AI。官网称团队还有 11 名来自 Meta、Google、牛津、剑桥、字节跳动、Adobe的 PhD,姓名未公开。


图丨相关推文(来源:X)

按官方文档,SubQ 要解决的是 Transformer 最根深蒂固的那道天花板:注意力机制的算力消耗随上下文长度呈平方级增长,序列翻一倍,算力翻四倍。

Subquadratic 把这种 dense attention 视作根本性的成本瓶颈,自家方案命名为 SSA。其核心机制按报告原文是 content-dependent selection,对每个 query,模型选出“值得 attend 的位置”,只对那些位置做精确的 attention 计算。博文同时把 SSA 总结为三项独有优势:在计算和内存上都是线性扩展、内容相关的路由、可以从任意位置稀疏检索。


图丨注意力计算量(来源:Subquadratic)

据官方披露,在 B200 GPU 上对比 FlashAttention-2,128K token 时 SubQ 快 7.2 倍,256K 时 13.2 倍,512K 时 23 倍,到 1M token 时拉到 52.2 倍。按官方推算,序列长到 12M token 时,注意力计算量比标准 dense attention 减少近 1,000 倍。

Benchmark 也直接对位主流前沿模型。RULER 128K 长上下文测试上 SubQ 拿到 95.0%,与 Claude Opus 4.6 的 94.8% 几乎打平。SWE-Bench Verified 上 81.8%,超过 Opus 4.6 的 80.8% 和 Gemini 3.1 Pro 的 80.6%。

在考察长上下文多源证据检索整合能力、也是最关键的 MRCR v2 上,SubQ 同时报了两个分数,研究版 83,第三方验证的生产版 65.9。同项目下 Claude Opus 4.7 是 32.2,Gemini 3.1 Pro 26.3,GPT 5.5 74.0。

如此逆天的数据自然引发了大量关注,质疑也随之而来。

前 OpenAI Sora 团队成员、AI 工程师 Will Depue 第一时间发出质疑:SubQ 几乎可以肯定是对 Kimi 或 DeepSeek 稀疏注意力(sparse attention)的微调。Whedon 几个小时后的帖子部分证实了这一推测,公司确实将开源模型的权重作为起点,“这是基于我们目前的资金规模和公司发展阶段做出的选择”。


图丨相关推文(来源:X)

但回看此前的相关研究,Kimi Linear 实际是混合结构,3/4 的层用线性注意力,剩下 1/4 仍然用平方复杂度的 MLA,Kimi 自己在论文里就承认纯线性版本 “在精确记忆检索和精确复制上仍然吃力”,所以没有用在所有层。

DeepSeek Sparse Attention 内部负责筛选 token 的 lightning indexer 自身仍是 O(n²),只是常数因子比 MLA 小一个数量级,复杂度被搬了位置而已。Mamba 和 RWKV 在 FLOP 层面确实做到了线性,但在前沿规模下游任务上跑不过标准注意力,至今没有任何前沿 LLM 单独使用它们。

如果 SubQ 把权重起点放在这些已经被业界明确画出复杂度边界的方案上,又是怎么在它们的基础上做出“减少 1,000 倍计算量”这种数量级跃升的?

清华大学交叉信息研究院博士游嘉诚也在 X 上提到,Subquadratic 所宣称的计算和内存上都是线性扩展这个特性实际上并不是 SSA 独有。dense attention 配合 FlashAttention 早已做到线性内存,这是业界几年前就普及的标配,SubQ 却依然把它单列为 SSA 三大独有优势之一来宣传。

按照官方博文的说法,SSA 的核心不是对 attention 做近似,而是不再假设每一对 token 都可能重要,把计算只限制在真正承载信号的位置上,跳过其余。

那么问题来了,模型如何在跑 attention 之前知道哪些位置承载信号?这本身是个循环:要判断某个 token 没有信号,就必须先把它和当前 query 比较一次,而比较本身的代价正是 quadratic 的全部来源。

Will Depue 用 phonebook eval 解释了这件事。phonebook 是衡量长上下文检索能力的一种基准,给模型一份 10 万人的电话簿,再问其中某个特定姓名的电话。模型不知道未来会被问到哪个姓名,理论上必须保留所有姓名在 context 里。任何 “提前丢弃信息” 的策略,在这个 eval 上都会失分。

博文里没有解释 SSA 的 selection 机制如何解决这个循环。一种可能是 SSA 内部有一个轻量 indexer 做评分(类似 DSA),但 selector 自身仍是 O(n²),复杂度只是被搬了位置。另一种可能是 selector 使用某种 learned gating,从训练数据中学到哪些位置值得保留,但这种方案在 phonebook 这类 “信息位置完全不可预测” 的任务上几乎注定失败。

报告称,训练数据特意选用“信息密度高、交叉引用结构丰富的长文本”,因为这类数据“会迫使 selection 机制学会跨越大跨度位置做路由”。这相当于承认 selection 机制是被训练出来的,而不是从 attention 矩阵动态推导出来的。一旦 selection 是 learned gating,长上下文检索的可靠性就被锁死在训练数据的分布里:训练数据里见过的位置和模式,模型能找到;分布之外的,比如 phonebook 这种全然随机的查询,模型只能赌。

官方公布的 benchmark 同样疑点重重。最大卖点 12M token 并没有完整 benchmark,所有 RULER、MRCR v2、SWE-Bench 的成绩都来自 1M-Preview 版本,“12M token 上的研究结果” 对应的只是一个 92.1% 的 needle-in-a-haystack 分数,而这是长上下文测试里最简单的一种,只考察模型能否在大堆 token 里找到一根特定的针,不评估多跳检索或证据整合。

但它是不是骗局终究还无法实锤。Subquadratic 尚未公布详细模型卡,目前只能通过申请小范围内测来试用,独立基准测试结果也还没有出来。

不过说起来,类似的剧本两年前刚上演过一次。

2024 年 8 月,旧金山公司 Magic.dev 发布 LTM-2-mini,宣称 1 亿 token 上下文窗口、相对标准注意力 1,000 倍效率优势,凭这一发布累计融资超过 5 亿美元。到 2026 年初,没有任何 Magic 之外的开发者或企业公开使用 LTM-2-mini 的记录,技术报告没出,模型没开源,benchmark 也没有第三方复现。

SubQ 的发布材料和 Magic 当年高度同构,同样的 1,000 倍效率,同样 “打破 Transformer 平方律” 的叙事,同样不开源,同样把完整技术细节推迟到 “完整模型卡片即将公布”。差别是 SubQ 这次一上来就奔着商业化产品去(API、CLI agent、搜索),而 Magic 当年还停留在研究 demo 阶段。

因此,它的成色究竟如何,或许能比 Magic.dev 更快见分晓。

参考资料:

1.https://subq.ai/introducing-subq

2.https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof

3.https://x.com/willdepue/status/2051734355509235734

运营/排版:何晨龙

注:封面/首图由 AI 辅助生成

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坚守油车的理由是啥?网友分享太真实了,但很多人不买账!

坚守油车的理由是啥?网友分享太真实了,但很多人不买账!

夜深爱杂谈
2026-05-06 20:49:01
世界杯FIFA开出天价版权,电视转播谈判陷僵局

世界杯FIFA开出天价版权,电视转播谈判陷僵局

齐鲁壹点
2026-05-06 12:45:16
俩11、12岁女孩五一失联,惨遭熟人亲属杀害,手段残忍令人发指

俩11、12岁女孩五一失联,惨遭熟人亲属杀害,手段残忍令人发指

老猫观点
2026-05-06 18:57:19
湖南一摩托车斑马线撞人致2死1伤 受害者家属:父母回岳阳会友遭横祸 事发时多人飙车,肇事者26岁

湖南一摩托车斑马线撞人致2死1伤 受害者家属:父母回岳阳会友遭横祸 事发时多人飙车,肇事者26岁

极目新闻
2026-05-06 20:45:38
男子电梯倒地抽搐,6人围观无人施救而死亡!法院的判决全网震怒

男子电梯倒地抽搐,6人围观无人施救而死亡!法院的判决全网震怒

蝴蝶花雨话教育
2026-05-06 00:20:05
山楂搭三物煮水喝,两个月后结节小了,错过是你的损失

山楂搭三物煮水喝,两个月后结节小了,错过是你的损失

健康之光
2026-05-05 20:50:05
中国运-20B:全球最大在产运输机,腾飞在即

中国运-20B:全球最大在产运输机,腾飞在即

心灵得以滋养
2026-05-06 12:44:08
被延长的抢救时间,被卡住的工伤认定

被延长的抢救时间,被卡住的工伤认定

新京报
2026-05-06 11:03:07
俄乌战争以来曝俄军首次大规模败退!乌克兰炸毁俄后勤大桥

俄乌战争以来曝俄军首次大规模败退!乌克兰炸毁俄后勤大桥

项鹏飞
2026-05-05 19:02:50
人能捅多大篓子?上海迪士尼十周年手帐印错字,变身“迪土尼”!网友傻眼!

人能捅多大篓子?上海迪士尼十周年手帐印错字,变身“迪土尼”!网友傻眼!

上观新闻
2026-05-06 17:14:06
乌平民遭俄袭击死伤惨重,泽连斯基痛斥克宫“犬儒主义”

乌平民遭俄袭击死伤惨重,泽连斯基痛斥克宫“犬儒主义”

史政先锋
2026-05-06 17:51:25
5月5日南海突发大事!黄岩岛正面对峙,中方举动让外界彻底沉默

5月5日南海突发大事!黄岩岛正面对峙,中方举动让外界彻底沉默

混沌录
2026-05-06 17:22:09
煮米饭别只加清水!酒店不外传秘诀,粒粒蓬松超好吃

煮米饭别只加清水!酒店不外传秘诀,粒粒蓬松超好吃

开心美食白科
2026-04-09 09:43:04
何赛飞霸气回应儿子跟她姓:这是我结婚的唯一条件,不同意就换人

何赛飞霸气回应儿子跟她姓:这是我结婚的唯一条件,不同意就换人

五四观娱
2026-05-05 12:11:52
外交部:对布朗总理获得连任表示祝贺

外交部:对布朗总理获得连任表示祝贺

极目新闻
2026-05-06 16:12:19
赵心童、吴宜泽之后,中国的第3位世锦赛冠军,将在以下6人中产生

赵心童、吴宜泽之后,中国的第3位世锦赛冠军,将在以下6人中产生

球场没跑道
2026-05-06 12:04:26
谢娜演唱会半个娱乐圈都挽救不了 ,被网友吐槽像大型幼儿园汇演!

谢娜演唱会半个娱乐圈都挽救不了 ,被网友吐槽像大型幼儿园汇演!

动物奇奇怪怪
2026-05-06 02:20:24
沉默四天后,鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

沉默四天后,鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

影孖看世界
2026-05-06 16:00:18
完爆胡明轩+碾压徐杰!广东第一克星确认到位,杜锋争冠计划落空

完爆胡明轩+碾压徐杰!广东第一克星确认到位,杜锋争冠计划落空

绯雨儿
2026-05-06 12:42:48
合肥市委书记费高云任上被查,曾因响水爆炸事故被政务记过

合肥市委书记费高云任上被查,曾因响水爆炸事故被政务记过

界面新闻
2026-05-06 17:03:05
2026-05-06 23:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16668文章数 514923关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

亲子
时尚
教育
艺术
公开课

亲子要闻

宝妈别侥幸,孩子被侵害后的心理伤害,长大一定会出现!

有些路,不必每一步都走得那么用力

教育要闻

3天后特长生开考!录取规则有变化?南京各校加试内容最新汇总!

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版