重磅发布！OpenMythos：用PyTorch重塑Claude Mythos|推理|真实场景|pytorch|openmythos

重磅发布！OpenMythos：用PyTorch重塑Claude Mythos

分享至

据传Anthropic 神秘的 Claude Mythos 在复杂推理、系统泛化和深度外推上表现惊人，但官方始终闭源。

就在刚刚！OpenMythos 出来了：一个完全开源的 PyTorch 实现，从第一性原理理论重建了这个“神话级”架构。这不是简单的复制，而是基于近期循环变换器（Looped Transformer）相关论文的大胆探索。Claude Mythos 到底是什么？核心猜想：循环深度变换器（RDT）

传统 Transformer 通过堆叠更多层来增加深度，但 OpenMythos 的假设完全不同：Claude Mythos 很可能是一种 Recurrent-Depth Transformer（RDT）。它的思路是：同一个 Transformer 块在单次前向传播中循环执行多次（最多可达 16 次迭代），权重完全共享。这样做的好处显而易见——用更少的参数，实现更深的推理深度。具体架构分为三部分：

Prelude（前奏）：标准 Transformer 层，只运行一次，负责初始处理。
Recurrent Block（循环块）：核心所在，同一个块反复循环。每次循环都通过稳定的LTI（线性时不变）输入注入将原始输入重新注入隐藏状态，避免循环崩溃。
Coda（结尾）：标准层，只运行一次，输出最终结果。

在循环块内部，前馈网络采用Mixture-of-Experts (MoE)设计，只激活稀疏的 top-K 专家，同时保留少量共享专家。关键在于：不同循环深度会路由到不同的专家子集，让每一次“思考”都具有计算独特性，而不是简单重复。注意力机制默认使用Multi-Latent Attention（类似 DeepSeek-V2），通过低秩 KV 缓存，大幅降低内存占用（据称可节省 10–20 倍）。此外，项目还加入了多项稳定机制：

自适应计算时间（Adaptive Computation Time），动态决定何时停止循环。
深度方向 LoRA 适配器，让不同迭代获得额外表达能力，而不显著增加参数。

为什么这可能颠覆现有 scaling law？

传统模型的 scaling 主要靠增加参数和训练数据，而 OpenMythos 提出了新维度：推理时的循环深度。论文和实验显示，一个只有 770M 参数的循环模型，在相同数据下能达到 1.3B 标准模型的性能。推理深度成为可动态调节的计算资源——训练时学 20 跳推理，推理时加到 30 跳依然有效。

这与传统的 Chain-of-Thought（思维链）有本质区别：所有推理都在连续潜空间（latent space）中完成，不产生中间 token，可能带来更好的系统性泛化和组合能力。简单说：参数复用 + 循环思考 = 更高效的深度推理。这或许解释了为什么 Claude Mythos 在硬问题上“感觉”特别强。

OpenMythos 项目亮点

完整的、可配置的 PyTorch 实现，包含 MoE、前馈、注意力等模块。
提供架构图、代码示例和训练基线。
强调可复现的研究基线，方便社区研究循环动态、缩放规律和推理时深度实验。
GitHub 已开源，欢迎大家贡献：训练稳定性优化、循环深度实验、替代注意力机制等。

这对 AI 未来意味着什么？

OpenMythos 虽然是理论重建（非 Anthropic 官方），但它把“循环推理”这个前沿方向推到了聚光灯下。未来，模型 scaling 可能不再只拼大小，而是拼“怎么更聪明地思考”——在推理阶段动态增加计算深度，而非一味增大参数。如果你是：

AI 研究者：可以直接 fork 代码，跑实验验证循环 vs 堆层的效果。
开发者：尝试在自己的项目中集成类似机制，看看在长链推理、复杂规划任务上的提升。
AI 爱好者：这又是一个见证开源社区快速迭代的绝佳案例。

当然，一切仍处于早期探索阶段，训练稳定性、梯度问题等挑战还需要社区共同攻克。但正如 Kye Gomez 所说，这是一个开放的研究努力，欢迎所有人参与。

循环深度会成为下一个大趋势吗？还是只是理论上的美好猜想？欢迎在评论区留言讨论！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.