据传Anthropic 神秘的 Claude Mythos 在复杂推理、系统泛化和深度外推上表现惊人,但官方始终闭源。
就在刚刚!OpenMythos 出来了:一个完全开源的 PyTorch 实现,从第一性原理理论重建了这个“神话级”架构。这不是简单的复制,而是基于近期循环变换器(Looped Transformer)相关论文的大胆探索。Claude Mythos 到底是什么?核心猜想:循环深度变换器(RDT)
传统 Transformer 通过堆叠更多层来增加深度,但 OpenMythos 的假设完全不同:Claude Mythos 很可能是一种 Recurrent-Depth Transformer(RDT)。它的思路是:同一个 Transformer 块在单次前向传播中循环执行多次(最多可达 16 次迭代),权重完全共享。这样做的好处显而易见——用更少的参数,实现更深的推理深度。具体架构分为三部分:
- Prelude(前奏):标准 Transformer 层,只运行一次,负责初始处理。
- Recurrent Block(循环块):核心所在,同一个块反复循环。每次循环都通过稳定的LTI(线性时不变)输入注入将原始输入重新注入隐藏状态,避免循环崩溃。
- Coda(结尾):标准层,只运行一次,输出最终结果。
在循环块内部,前馈网络采用Mixture-of-Experts (MoE)设计,只激活稀疏的 top-K 专家,同时保留少量共享专家。关键在于:不同循环深度会路由到不同的专家子集,让每一次“思考”都具有计算独特性,而不是简单重复。注意力机制默认使用Multi-Latent Attention(类似 DeepSeek-V2),通过低秩 KV 缓存,大幅降低内存占用(据称可节省 10–20 倍)。此外,项目还加入了多项稳定机制:
- 自适应计算时间(Adaptive Computation Time),动态决定何时停止循环。
- 深度方向 LoRA 适配器,让不同迭代获得额外表达能力,而不显著增加参数。
为什么这可能颠覆现有 scaling law?
传统模型的 scaling 主要靠增加参数和训练数据,而 OpenMythos 提出了新维度:推理时的循环深度。论文和实验显示,一个只有 770M 参数的循环模型,在相同数据下能达到 1.3B 标准模型的性能。推理深度成为可动态调节的计算资源——训练时学 20 跳推理,推理时加到 30 跳依然有效。
![]()
这与传统的 Chain-of-Thought(思维链)有本质区别:所有推理都在连续潜空间(latent space)中完成,不产生中间 token,可能带来更好的系统性泛化和组合能力。简单说:参数复用 + 循环思考 = 更高效的深度推理。这或许解释了为什么 Claude Mythos 在硬问题上“感觉”特别强。
OpenMythos 项目亮点
- 完整的、可配置的 PyTorch 实现,包含 MoE、前馈、注意力等模块。
- 提供架构图、代码示例和训练基线。
- 强调可复现的研究基线,方便社区研究循环动态、缩放规律和推理时深度实验。
- GitHub 已开源,欢迎大家贡献:训练稳定性优化、循环深度实验、替代注意力机制等。
这对 AI 未来意味着什么?
OpenMythos 虽然是理论重建(非 Anthropic 官方),但它把“循环推理”这个前沿方向推到了聚光灯下。未来,模型 scaling 可能不再只拼大小,而是拼“怎么更聪明地思考”——在推理阶段动态增加计算深度,而非一味增大参数。如果你是:
- AI 研究者:可以直接 fork 代码,跑实验验证循环 vs 堆层的效果。
- 开发者:尝试在自己的项目中集成类似机制,看看在长链推理、复杂规划任务上的提升。
- AI 爱好者:这又是一个见证开源社区快速迭代的绝佳案例。
当然,一切仍处于早期探索阶段,训练稳定性、梯度问题等挑战还需要社区共同攻克。但正如 Kye Gomez 所说,这是一个开放的研究努力,欢迎所有人参与。
循环深度会成为下一个大趋势吗?还是只是理论上的美好猜想?欢迎在评论区留言讨论!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.