网易首页 > 网易号 > 正文 申请入驻

重磅发布!OpenMythos:用PyTorch重塑Claude Mythos

0
分享至

据传Anthropic 神秘的 Claude Mythos 在复杂推理、系统泛化和深度外推上表现惊人,但官方始终闭源。

就在刚刚!OpenMythos 出来了:一个完全开源的 PyTorch 实现,从第一性原理理论重建了这个“神话级”架构。这不是简单的复制,而是基于近期循环变换器(Looped Transformer)相关论文的大胆探索。Claude Mythos 到底是什么?核心猜想:循环深度变换器(RDT)

传统 Transformer 通过堆叠更多层来增加深度,但 OpenMythos 的假设完全不同:Claude Mythos 很可能是一种 Recurrent-Depth Transformer(RDT)。它的思路是:同一个 Transformer 块在单次前向传播中循环执行多次(最多可达 16 次迭代),权重完全共享。这样做的好处显而易见——用更少的参数,实现更深的推理深度。具体架构分为三部分:

  • Prelude(前奏):标准 Transformer 层,只运行一次,负责初始处理。
  • Recurrent Block(循环块):核心所在,同一个块反复循环。每次循环都通过稳定的LTI(线性时不变)输入注入将原始输入重新注入隐藏状态,避免循环崩溃。
  • Coda(结尾):标准层,只运行一次,输出最终结果。

在循环块内部,前馈网络采用Mixture-of-Experts (MoE)设计,只激活稀疏的 top-K 专家,同时保留少量共享专家。关键在于:不同循环深度会路由到不同的专家子集,让每一次“思考”都具有计算独特性,而不是简单重复。注意力机制默认使用Multi-Latent Attention(类似 DeepSeek-V2),通过低秩 KV 缓存,大幅降低内存占用(据称可节省 10–20 倍)。此外,项目还加入了多项稳定机制:

  • 自适应计算时间(Adaptive Computation Time),动态决定何时停止循环。
  • 深度方向 LoRA 适配器,让不同迭代获得额外表达能力,而不显著增加参数。

为什么这可能颠覆现有 scaling law?

传统模型的 scaling 主要靠增加参数和训练数据,而 OpenMythos 提出了新维度:推理时的循环深度。论文和实验显示,一个只有 770M 参数的循环模型,在相同数据下能达到 1.3B 标准模型的性能。推理深度成为可动态调节的计算资源——训练时学 20 跳推理,推理时加到 30 跳依然有效。



这与传统的 Chain-of-Thought(思维链)有本质区别:所有推理都在连续潜空间(latent space)中完成,不产生中间 token,可能带来更好的系统性泛化和组合能力。简单说:参数复用 + 循环思考 = 更高效的深度推理。这或许解释了为什么 Claude Mythos 在硬问题上“感觉”特别强。

OpenMythos 项目亮点

  • 完整的、可配置的 PyTorch 实现,包含 MoE、前馈、注意力等模块。
  • 提供架构图、代码示例和训练基线。
  • 强调可复现的研究基线,方便社区研究循环动态、缩放规律和推理时深度实验。
  • GitHub 已开源,欢迎大家贡献:训练稳定性优化、循环深度实验、替代注意力机制等。

这对 AI 未来意味着什么?

OpenMythos 虽然是理论重建(非 Anthropic 官方),但它把“循环推理”这个前沿方向推到了聚光灯下。未来,模型 scaling 可能不再只拼大小,而是拼“怎么更聪明地思考”——在推理阶段动态增加计算深度,而非一味增大参数。如果你是:

  • AI 研究者:可以直接 fork 代码,跑实验验证循环 vs 堆层的效果。
  • 开发者:尝试在自己的项目中集成类似机制,看看在长链推理、复杂规划任务上的提升。
  • AI 爱好者:这又是一个见证开源社区快速迭代的绝佳案例。

当然,一切仍处于早期探索阶段,训练稳定性、梯度问题等挑战还需要社区共同攻克。但正如 Kye Gomez 所说,这是一个开放的研究努力,欢迎所有人参与。

循环深度会成为下一个大趋势吗?还是只是理论上的美好猜想?欢迎在评论区留言讨论!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

1985年,国安叛徒藏身南美,中国6名兵王万里锄奸,FBI颜面尽失

干史人
2026-04-14 21:10:03
眉毛冒出一根很长的毛?不要大意!俗话说“眉生长毛,必有一遭”

眉毛冒出一根很长的毛?不要大意!俗话说“眉生长毛,必有一遭”

一根香烟的少妇
2026-03-17 17:54:13
湖南一小车在高速公路跑100码,突然接到陌生人电话直接吓哭:你车轮没了!

湖南一小车在高速公路跑100码,突然接到陌生人电话直接吓哭:你车轮没了!

潇湘晨报
2026-04-18 17:05:22
大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

橙星文娱
2026-04-18 16:01:07
Lisa搭上新金主爸爸!?

Lisa搭上新金主爸爸!?

八卦疯叔
2026-04-19 11:09:39
华谊亏损超82亿,不放弃事业不整容的罗海琼,才是最清醒的老板娘

华谊亏损超82亿,不放弃事业不整容的罗海琼,才是最清醒的老板娘

一盅情怀
2026-04-18 08:08:54
特朗普:如果到周三未达成结束战争的长期协议,可能会终止与伊朗的停火,但封锁将继续,伊朗不会拥有核武器

特朗普:如果到周三未达成结束战争的长期协议,可能会终止与伊朗的停火,但封锁将继续,伊朗不会拥有核武器

鲁中晨报
2026-04-18 12:05:07
俄方给中国提了醒:如果想武统台湾,必先毁掉美军的西太平洋基地

俄方给中国提了醒:如果想武统台湾,必先毁掉美军的西太平洋基地

一家说
2026-04-20 01:56:15
白酒帝国的黄昏:珍酒李渡和华致酒行全面“塌房”

白酒帝国的黄昏:珍酒李渡和华致酒行全面“塌房”

深水财经社
2026-04-19 22:00:06
不敢相信她有五十多岁了

不敢相信她有五十多岁了

科学发掘
2026-04-19 21:09:22
郑丽文之后,国民党大佬抵京!她的2个“必然”、狠狠打脸赖清德

郑丽文之后,国民党大佬抵京!她的2个“必然”、狠狠打脸赖清德

呼呼历史论
2026-04-19 15:51:45
Q女士爆料:张婉婷向她索要500万,不是赔偿,而是宋宁峰的转让费

Q女士爆料:张婉婷向她索要500万,不是赔偿,而是宋宁峰的转让费

娱文速递
2026-04-19 16:15:36
火箭3主力身价暴跌!申京三无产品,谢泼德攻守全崩,阿门狂被帽

火箭3主力身价暴跌!申京三无产品,谢泼德攻守全崩,阿门狂被帽

篮球资讯达人
2026-04-19 12:26:12
安徽一正处级干部被查!另有2人被通报

安徽一正处级干部被查!另有2人被通报

凤凰网安徽
2026-04-19 16:08:49
戴帽子会引发脑梗?医生含泪劝告:70岁以后,这3件事一定要盯紧

戴帽子会引发脑梗?医生含泪劝告:70岁以后,这3件事一定要盯紧

荷兰豆爱健康
2026-04-19 22:24:42
就在今天!NBA传来骑士最新消息!哈登被围殴!哈登承认错误!

就在今天!NBA传来骑士最新消息!哈登被围殴!哈登承认错误!

林子说事
2026-04-19 12:42:59
重大资产重组!多家A股公司明日停牌

重大资产重组!多家A股公司明日停牌

21世纪经济报道
2026-04-19 21:38:53
美媒:特朗普最新信号——结束战争,转向经济

美媒:特朗普最新信号——结束战争,转向经济

参考消息
2026-04-18 16:23:05
时隔20天后,自卫队军官再遭逮捕,罪名已变,中方反制开始生效

时隔20天后,自卫队军官再遭逮捕,罪名已变,中方反制开始生效

灿若银烂
2026-04-19 22:54:45
女子4楼坠亡后续:万达正常营业,现场细节曝光,原因被扒很可惜

女子4楼坠亡后续:万达正常营业,现场细节曝光,原因被扒很可惜

阿凫爱吐槽
2026-04-19 22:15:52
2026-04-20 03:36:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
547文章数 8222关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

游戏
健康
家居
手机
公开课

如何将ZH-1火力最大化?《战舰世界》15.3版本造船厂加点攻略

干细胞抗衰4大误区,90%的人都中招

家居要闻

法式线条 时光静淌

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版