网易首页 > 网易号 > 正文 申请入驻

Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路

0
分享至


新智元报道

编辑:桃子

【新智元导读】Claude Mythos核心架构,竟被一个22岁天才扒了个精光!OpenMythos现已全开源,不靠堆参数,原地「循环思考」16次就能推理。闭源实验室的护城河,真的还在吗?

简直太疯狂了!

Anthropic捂得最严实的Claude Mythos,竟被一个22岁的年轻人扒开了。


不是泄露,不是内部员工跳槽带出来的。

是一个叫Kye Gomez的初创CEO,以第一性原理,硬生生把Claude Mythos的核心架构从头推导了出来。

更炸裂的是,他把这一项目——OpenMythos全开源了



复现帖引近100万人围观

一时间,全网都坐不住了,网友们纷纷惊叹Mythos背景精妙的设计。




不堆参数,原地「循环思考」16次

先说结论,Kye Gomez认为——

Claude Mythos的核心不是一个更大的Transformer,而是一种叫做「循环深度Transformer」(Recurrent-Depth Transformer, RDT)的架构

说白了就是,同一套权重,在一次前向传播里循环跑最多16次。


传统大模型像盖高楼,一层一层往上堆参数。100层不够就200层,200层不够就500层。

参数越多,模型越大,显存吃得越猛,训练成本越恐怖。

但RDT完全换了一个思路:不盖高楼,原地跑圈。

模型只有一个核心计算块,但这个块会被反复执行。每循环一次,隐藏状态就更新一次,就相当于「多想了一步」。

而且所有的思考都在连续潜空间里默默进行——不用像思维链(CoT)那样,每一步都吐出可见的token。

这不是重复计算,是迭代推理。


架构全拆解:三段式设计

整个OpenMythos的架构分三段:

Prelude(序曲)→ Recurrent Block(循环核心)→ Coda(终章)

Prelude和Coda是标准的Transformer层,各跑一次。

真正的计算核心是中间的「循环块」,它最多循环16次,每次循环的更新规则是:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude编码后的原始输入,每一步都会被重新注入,防止模型在循环中「跑偏」。


MoE给广度,循环给深度

光靠循环能解释Mythos推理的「深度」,但解释不了广度。

OpenMythos在循环核心的每个FFN层,都替换成了MoE层,设计参考了DeepSeek-MoE:

  • 大量细粒度的路由专家;

  • 每个token只激活其中一小部分;

  • 少量「共享专家」始终激活,负责吸收跨领域的通用知识。

最精妙的一点,随着隐藏状态h_t在循环中不断演化,路由器在每一层循环深度会选择不同的专家子集。

也就是说,虽然权重共享,但每次循环的计算路径完全不同:

MoE提供广度,循环提供深度。


项目地址:https://github.com/kyegomez/OpenMythos

注意力机制默认使用「多潜变量注意力」(Multi-Latent Attention),来自DeepSeek-V2,把KV缓存压缩成低秩潜变量,在生产规模下能实现10-20倍的KV显存节省。

三个额外机制保证循环稳定性:LTI约束注入(谱半径强制小于1)、自适应计算时间(ACT)逐位置停机、以及深度级LoRA适配器让每次迭代都有独立的行为调整能力。

细思极恐,这套设计精密得像一台瑞士钟表。

770M打平1.3B,参数效率直接翻倍

这不是嘴上说说。

此前,来自Parcae团队的实验数据:一个770M参数的循环模型,在同等训练数据下,能达到1.3B标准Transformer的下游任务质量。

换句话说——用一半的参数,干了同样的活。


这对整个行业意味着什么?

对消费级硬件来说,这是天大的利好。以前跑个像样的模型,没有A100你连门都进不了。

现在呢?推理深度是时间换空间——你不需要更多的显存,只需要多跑几圈。

更重磅的是,这彻底改写了AI的Scaling法则。以前拼的是谁的参数多、谁的GPU多、谁的电费账单厚。

现在的规则变了:未来最强的模型,不是参数最多的,而是想得最多次的。

不过,作者也表示,这目前只是理论上的说法,还需要保留一些意见。


高中毕业,就当上了CEO

这位扒开22岁Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的创始人,之前还领导过Agora Labs。

他的研究重点是——大规模多智能体系统、替代模型架构和多模态模型。


个人主页显示,Kye Gomez高中毕业之后,就开始投身于创业。


在2021年-2024年间,他同时担任了三家公司的联创/CEO,创建立了一个以「APAC」为品牌的生态体系。

其覆盖了AI深科技、媒体、食品科技等多个领域。


22岁小哥,开源了Anthropic神级模型

这件事最让人震撼的,不是架构本身有多厉害。

是一个22岁的创业者,只用公开论文和第一性原理,就把Anthropic藏了一年的黑箱直接复现了出来。

还全开源了,而且只要几行代码就能跑。

这意味着什么?

闭源实验室的架构优势,正在以肉眼可见的速度消失。

FT最新报道中,Dario Amodei重磅预测,中国将在12个月内,完全复刻出具备Claude Mythos级别能力的大模型。


针对外界对LLM性能是否触及天花板的质疑,Amode用一句富有诗意的话给出了回应——

彩虹没有尽头,只有彩虹本身。

他强调,目前完全看不到技术放缓的迹象。

当一个人用公开信息就能重建最核心的技术,护城河就不再是架构了。

参考资料:

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
甩锅?白冰控诉被好兄弟做局!对方硬刚爆猛料,网友:这面相挺狠

甩锅?白冰控诉被好兄弟做局!对方硬刚爆猛料,网友:这面相挺狠

勇敢的人享受生活
2026-05-17 23:40:58
郑强翻车:钢丝上走11年,终于掉下来了

郑强翻车:钢丝上走11年,终于掉下来了

霹雳炮
2026-05-19 23:01:58
普京走下专机后,就和王毅主任一路畅聊,脱下西装外套后才上专车

普京走下专机后,就和王毅主任一路畅聊,脱下西装外套后才上专车

知法而形
2026-05-20 11:57:33
37岁杨颖贵州活动照曝光!面相变了脸肿嘴歪眼没光,颜值大不如前

37岁杨颖贵州活动照曝光!面相变了脸肿嘴歪眼没光,颜值大不如前

杰丝聊古今
2026-05-17 22:09:12
日本U17主帅:浮岛敏是日本人,我一直在考虑与中国的比赛

日本U17主帅:浮岛敏是日本人,我一直在考虑与中国的比赛

懂球帝
2026-05-19 13:44:16
美媒集体震惊:这次访华,才真正见识到中国温度!

美媒集体震惊:这次访华,才真正见识到中国温度!

福建睿平
2026-05-18 11:56:20
中国抛售410亿美债,逼出背后最大接盘侠,疯狂买入2000多亿……

中国抛售410亿美债,逼出背后最大接盘侠,疯狂买入2000多亿……

清流财记
2026-05-19 21:10:25
性,已成为职场流通的硬资源!

性,已成为职场流通的硬资源!

黯泉
2026-05-18 17:46:44
温网正赛名单公布:郑钦文王欣瑜在列,中国选手共4人入围

温网正赛名单公布:郑钦文王欣瑜在列,中国选手共4人入围

全景体育V
2026-05-20 11:31:55
叶子楣59岁逆生长!81斤身材,状态碾压同龄人!

叶子楣59岁逆生长!81斤身材,状态碾压同龄人!

马拉松跑步健身
2026-05-17 21:54:23
水在4℃时密度最大?这个反常识物理Bug,差点决定地球生命的命运

水在4℃时密度最大?这个反常识物理Bug,差点决定地球生命的命运

半解智士
2026-05-05 12:56:18
杨议收徒太寒酸!女徒弟穿短裙黑丝出席,和佟有为收徒现场没法比

杨议收徒太寒酸!女徒弟穿短裙黑丝出席,和佟有为收徒现场没法比

嫹笔牂牂
2026-05-20 07:44:27
一只瘦小的猪蹄,距今2000多年了,汉代士兵却来不及吃掉

一只瘦小的猪蹄,距今2000多年了,汉代士兵却来不及吃掉

收藏大视界
2026-05-18 18:28:57
和珅临终前,给子女交代了两道密令,保全了整个家族两百多年!

和珅临终前,给子女交代了两道密令,保全了整个家族两百多年!

浩渺青史
2026-05-17 18:10:41
切尔西欧冠彻底没戏,热刺未保级枪手先夺冠

切尔西欧冠彻底没戏,热刺未保级枪手先夺冠

体坛周报
2026-05-20 11:05:44
孩子还是青年?北京两次接机的安排,全世界都在偷偷盘算这道题

孩子还是青年?北京两次接机的安排,全世界都在偷偷盘算这道题

温读史
2026-05-20 03:52:01
川普发15图讽刺,解放军75厘米装备强势回应

川普发15图讽刺,解放军75厘米装备强势回应

泪满过眼
2026-05-19 15:57:33
郎平万万没想到,远走海外仅2年,31岁的朱婷早已踏上另一条路

郎平万万没想到,远走海外仅2年,31岁的朱婷早已踏上另一条路

科普100克克
2026-03-17 00:58:21
俄罗斯做出巨大让步!中国30年心结了结!美媒:欧盟帮了中国大忙

俄罗斯做出巨大让步!中国30年心结了结!美媒:欧盟帮了中国大忙

老范谈史
2026-04-26 18:10:17
台海观澜 | 台湾政治精英的三种脸色一种心态

台海观澜 | 台湾政治精英的三种脸色一种心态

经济观察报
2026-05-18 14:21:03
2026-05-20 13:12:50
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15259文章数 66877关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

烈性犬咬死2岁女童狗主人赔25万 狗被警方无公害处理

头条要闻

烈性犬咬死2岁女童狗主人赔25万 狗被警方无公害处理

体育要闻

不再美丽的阿森纳,终于成为英超冠军

娱乐要闻

舒淇大方承认:卸了妆就是50 岁的模样

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

旅游
房产
亲子
游戏
教育

旅游要闻

商圈变花海,闭幕不散场!前滩公园巷、晶耀前滩将“赏花流量”转为“幸福增量”

房产要闻

7516元/㎡,161套一次全甩!海口住宅最低价出现了!

亲子要闻

“消”字号当“妆”字号卖?“毒面霜”悲剧还在对着儿童......

外媒批评索尼回归独占!双输局面 玩家受伤最大

教育要闻

学校有一种看不见的陷阱,叫无意识洗脑,告诉孩子一定要提防

无障碍浏览 进入关怀版