网易首页 > 网易号 > 正文 申请入驻

不堆参数、不烧算力!小模型也能跑出大模型能力

0
分享至


不靠堆参数,循环计算赋能小模型提效。

编辑丨李希

当大模型的发展越来越依赖更大的参数规模和更高的训练成本时,一个问题开始被越来越多人关注:模型变强,是否只有“堆参数”这一条路?

过去几年,大模型的发展几乎遵循着同一条路径:更多参数、更多数据、更多算力。

但一个问题始终存在:如果不继续扩大模型规模,只改变模型内部的计算方式,能否同样带来性能提升?

围绕这一问题,22岁的AI研究者 Kye Gomez 提出过 Mythos 架构假想。其核心思路是让模型对同一段信息进行额外的循环计算(Recurrent Depth),尝试用更多内部计算替代部分参数扩张。这并不是对任何现有大模型架构的证明,而是一种值得验证的研究方向。

为了检验这一思路是否具有实际价值,Agnes AI团队基于开源框架搭建了一套完整的语言模型预训练流程,并设计了一系列对照实验,对不同循环层级(T)的效果进行了测试。

实验结果显示,在相同训练条件下,当模型增加一次循环计算(T=1)时,测试集上的PPL(Perplexity,)平均下降约10%。

需要说明的是,PPL下降并不意味着模型准确率提升10%,也不能直接等同于推理能力提升10%。它更像是衡量模型学习效率的一项基础指标。从实验结果来看,增加一次循环计算后,模型对训练数据的利用效率出现了积极变化。

更重要的是,这项实验验证了一个值得进一步研究的现象:在不增加参数规模和模型层数的前提下,仅通过调整模型内部计算流程,也有可能获得性能收益。

当前大模型行业深陷 “堆参数、卷底层优化” 的困局,提升效果靠扩参、降本死磕 KV Cache 与 CUDA 调优,成本高、边际收益越来越低。Agnes AI团队跳出这一思维定式,以Mythos 架构解密为核心,在固定参数的前提下,验证小模型逼近大模型效果的可行性。给出了这条技术路线 “哥德巴赫猜想” T=1 的验证结果,也期待社区在此基础上继续探索,共同验证T=2、3、4… 的更多可能,为行业打开全新方向:不靠堆参数、不烧钱拼算力,靠架构创新,让小模型也能实现更接近大模型的能力。

下面,将详细介绍这项实验的设计过程、关键结果以及目前能够得出的结论与边界。

OpenMythos 与 nanowhale 结合成类 Recurrent Language Model 路线的深度研究

从 Claude Mythos 的架构猜想,到 NanoMythos 在 FineWeb-Edu 10K 上的技术验证

01


执行摘要

这篇文章解释的是一个小规模但非常关键的架构实验:把 OpenMythos 所代表的 recurrent-depth 思路,移植到 nanowhale / DeepSeek-V4 风格的小型语言模型中,并检验这种 NanoMythos 融合模型是否能够提升预训练效率。

核心结果很直接:在 FineWeb-Edu 10K、5,000 步短预算验证设置下,T=1 的 recurrent 模型把三组随机种子的 held-out PPL 平均值从 baseline 的 166.2 降到 148.3。也就是说,平均下降 17.9 PPL,相对下降约 10.8%,并且 3/3 个随机种子全部获胜。

这并不证明 Claude 内部一定采用了同样的架构。但它说明,Claude-Mythos 式 recurrent-depth 假设可以被转化为一个可复核的工程实验;同时,T=1 这个最小循环深度已经给出了足够清晰的正向信号,值得继续扩大规模验证。

1. 什么是 Claude Mythos,为什么影响力这么大?

“Claude Mythos”更适合被理解为围绕前沿语言模型的一种架构假设,尤其是围绕 Anthropic Claude 系列模型的能力来源展开的讨论。这个说法通常指向一个问题:现代语言模型是否真的只是普通的前馈 Transformer 层堆叠,还是在内部包含了某种重复计算机制,例如 recurrent depth、迭代式表示修正,或者隐藏状态空间中的反复处理。

这个概念之所以有影响力,并不是因为外界已经公开验证了 Claude 的内部架构。真正的影响力来自一个更大的直觉:前沿模型已经表现出复杂推理、规划、自我修正和工具使用能力,而标准 Transformer scaling 只能解释其中一部分现象。因此,研究者开始追问:如果模型不是只靠更多参数,而是通过更多内部计算来提升能力,会不会是一条更高效的路线?

一个直观类比是:读一句话一次和读完后再思考一遍,效果并不一样。标准 Transformer 堆叠是固定层数的单次前向传播;而recurrent-depth 模型会让部分隐藏状态再次经过共享或部分共享的计算核心。它并不等同于人类思考,但它确实增加了一条新的扩展维度:不只是更多参数和更多数据,而是每个 token 可以获得更多内部计算。

2. Recurrent Language Model 研究目前走到哪一步?

Recurrent language model 并不是一个单一方法,而是一组试图让语言模型复用计算、携带状态或多步修正隐藏表示的研究路线。

早期工作如 Universal Transformer 和 Transformer-XL 分别从“重复应用层”和“跨片段记忆”两个角度探索 recurrence。近几年,状态空间模型、RWKV 式递归结构、looped Transformer、recurrent-depth Transformer,以及 Coconut 这类连续潜空间推理方法,也都在不同层面推进类似方向。它们实现不同,但共同动机一致:固定深度的 next-token prediction 未必是分配计算资源的唯一有效方式。

在这个语境下,OpenMythos 的价值不在于它证明了 Claude 的真实设计,而在于它把一个模糊的架构猜想变成了可实现、可检查、可修改的 recurrent-depth Transformer 假设。这样一来,我们就可以问一个更科学的问题:如果把类似的 recurrent 计算路径放入一个受控的小模型中,训练行为是否会被可测量地改善?

传统 scaling:更多参数 + 更多数据 + 更多训练计算
Recurrent-depth scaling:一样的参数 + 更多数据 + 每个 token 更多重复内部计算

3. 我们的结合方式:把 OpenMythos 的 Recurrent Depth 放进 nanowhale 风格骨干

融合后的模型可以理解为一个 NanoMythos 验证框架。宿主模型沿用 nanowhale 的方向:一个约 110M 规模、DeepSeek-V4 风格的小语言模型,适合低成本、反复进行预训练架构实验。架构干预来自 OpenMythos 的核心想法:在网络中间插入一个 recurrent / Mythos core,并让它循环执行 T 次。

这样就形成了一个清晰的受控对比:baseline 保留 nanowhale 风格骨干,但不引入 recurrent depth;实验模型保持同样的模型家族、数据集和训练预算,只在中间核心处执行一次 recurrent pass,也就是 T=1。

T=1 是一个刻意保守的设置。它并不是为了模拟很长的“思考过程”,而是最小的非平凡 recurrent-depth 配置:足以检验这条路径是否有帮助,同时又不会让过深循环带来的不稳定性掩盖结果。


图 1. NanoMythos 架构:将 OpenMythos 风格 recurrent depth 移植到 nanowhale / DeepSeek-V4 风格小语言模型中。


4. 实验设置

这个验证问题非常窄:在相同的 FineWeb-Edu 10K 预训练预算下,T=1 recurrent depth 是否能比 baseline 获得更低的 held-out perplexity?

FineWeb-Edu 10K 是一个紧凑的教育类网页预训练子集。它的目标不是训练出生产级模型,而是提供一个足够真实、迭代速度足够快的数据分布,用于早期架构验证。

每个模型训练 5,000 步。对于主随机种子,还在 1,000、2,000、3,000、4,000 和 5,000 步进行阶段性评估。实验覆盖三个随机种子:seed2025、seed2027 和 seed2048。核心指标是 held-out perplexity,数值越低越好。

5. 核心结果:T=1 让 PPL 下降约 10%

在 5,000 训练步时,NanoMythos T=1 在所有测试随机种子上都优于 baseline。



图 2. FineWeb-Edu 10K 跨种子 PPL 对比。Delta 为负表示 NanoMythos T=1 更好。

这个结果有两点意义。第一,提升不是某一个随机种子的偶然:T=1 在 seed2025、seed2027 和 seed2048 上全部获胜。第二,seed2027 尤其值得注意。baseline 退化到 187.7 PPL,而 T=1 保持在 151.4 PPL,明显更接近其他 T=1 结果。这可能暗示 recurrent-depth 改写带来了一定稳定化效果,当然还需要更多随机种子才能做强统计结论。

因此,最稳妥的结论不是“recurrent depth 一定全面优于传统架构”,而是:T=1 已经给出了足够稳定的正向信号,值得进入更大规模验证。

6. 训练动态:差距在 3,000 步后变得更清楚



图 3. Seed2025 阶段性评估。T=1 始终更优,并且 3,000 步后差距更明显。

这个趋势很重要,因为很多弱架构技巧只会带来早期优化假象,后续优势会消失。但这里的优势没有消失,反而随着训练推进更明显。这支持一种解释:recurrent-depth 计算改善的是参数使用效率,而不只是早期优化行为。

7. 外部参考:GPT-2 Standard / Small


GPT-2 对比需要谨慎解读。GPT-2 与 nanowhale 在 tokenizer、block 设计、参数组织和实现细节上都有差异,因此它不是一个纯粹的architecture-only 对比。

但它仍然有参考价值。在短预算 FineWeb-Edu 10K、相同数据量与训练步数下,随机初始化的 GPT-2 Standard 124M 验证 PPL 为 273.5,而 nanowhale T=1 为 147.7——绝对低约 126 点,相对约 46%,可视为早期收敛明显优于该 GPT-2 基线。

8. 这个结果证明了什么,又没有证明什么?

T=1 收益最可能的解释,并不是模型突然拥有了类似人类的推理能力。更技术性的解释是:recurrent block 让模型在复用参数的同时,对 token-level hidden representation 多做了一次修正,从而提升了compute-per-parameter 的效率。

这不同于简单加层。加层会增加独立参数数量;复用中间核心则是在参数预算更受控的情况下增加有效计算深度。

因此,这个结果支持的是一个适度但重要的主张:recurrent-depth computation 是一个值得继续探索的预训练架构改进方向,而 T=1 是当前最干净、最适合作为扩展起点的配置。


9. 为什么 T=2 还不是当前主线?


T=2 在当前 recipe 下表现明显更差。这不应该被理解为“更深 recurrence 没有价值”的证明。更合理的解释是:T=2 不能直接套用为 baseline 或 T=1 调好的训练配方。

可能原因包括学习率不匹配、warmup 不足、hidden-state drift、残差缩放不足、loop embedding 不够强,以及 5,000 步 / 10K 数据规模太小,无法让更深循环稳定发挥作用。

10. 下一步:如何把 T 扩大到更高?

扩展到 FineWeb-Edu 50K:在更大数据设置下运行 baseline、T=1 和 GPT-2 Standard 对比,验证 T=1 优势是否能从 10K pilot 延续到更大数据规模。

100M–200M T=1 pilot:把 T=1 作为默认 recurrent-depth 设置,测试当模型接近 GPT-2 Small / Standard 规模时,收益是否仍然可见。

T=2 recipe search:把 T=2 当作独立消融轨道,而不是直接替代 T=1。重点测试更低学习率、更长 warmup、残差阻尼、门控 recurrent update、step-aware loop embedding、更强 normalization 和更长训练 schedule。

自适应 latent compute:从固定 T 走向可变深度计算。让简单 token 使用更少内部 pass,让困难 token 使用更多 pass,可用 hidden delta、logit KL、entropy change 或 learned halting 信号控制停止。

连接推理任务:把 PPL 证据延伸到 reasoning tasks:引入 Coconut-light 路线、连续 latent thoughts、 / latent spans,以及 DAG search、logic chains、arithmetic carry、GSM8K-mini 等诊断任务。

11. 结论

OpenMythos 与 nanowhale 的结合,把一个关于 Claude Mythos 的架构猜想,转化成了一个具体的工程实验。它没有声称知道 Claude 的内部设计,而是提出一个可测量问题:在受控预训练设置下,recurrent-depth 机制是否能改善一个小型开放模型?

FineWeb-Edu 10K 的结果是正向的:baseline 平均 PPL 为 166.2,NanoMythos T=1 平均 PPL 为 148.3,平均提升 17.9 PPL,随机种子胜率 3/3,相对 held-out perplexity 下降约 10.8%。

最稳妥的结论是:T=1 recurrent depth 是一个可信的架构改进候选,值得进入下一阶段 scale-up。如果这个信号能在 FineWeb-Edu 50K 和 100M–200M pilot 上继续存在,NanoMythos 就可以从一个架构猜想实验,进一步发展为面向高效预训练和 latent compute 的系统研究路线。

02


来源说明

本中文 Word 版本基于 NanoMythos / nanowhale 技术验证材料,以及 FineWeb-Edu 10K cross-seed 实验结果整理。

文档中的架构图、实验柱状图和训练动态折线图均已重建为适合 Word 阅读和传播的多模态内容,并尽量保留原始技术信息。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

装修秀
2026-04-23 11:15:03
夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

阿龙美食记
2026-05-31 20:23:07
全新一代问界 M9 上市:国产豪华车标杆的自我刷新

全新一代问界 M9 上市:国产豪华车标杆的自我刷新

晚点LatePost
2026-05-29 09:50:28
女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

女员工嘲讽顾客“穷逛”后续:本人火到香港已社死,商场也被坑惨

哄动一时啊
2026-06-01 19:30:38
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
阿迪达斯发进城办事T恤,客服回应

阿迪达斯发进城办事T恤,客服回应

第一财经资讯
2026-06-02 15:07:57
伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

伦敦世乒赛夺冠后,王皓宣布:王楚钦为国乒男队队长,梁靖崑为副队长

环球网资讯
2026-06-02 14:32:33
稻城亚丁怎么就“跪”了?!

稻城亚丁怎么就“跪”了?!

行者殷涛
2026-06-01 18:00:30
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
师父来了!文班亚马的靠山,真TM硬啊!

师父来了!文班亚马的靠山,真TM硬啊!

左右为篮
2026-06-02 09:06:29
神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

田先生篮球
2026-06-02 09:23:02
太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

慧翔百科
2026-06-02 08:40:47
一男子中奖10万,请家人吃700块钱海鲜庆祝,结账时发现帐单高达280万,男子:差点倾家荡产

一男子中奖10万,请家人吃700块钱海鲜庆祝,结账时发现帐单高达280万,男子:差点倾家荡产

背包旅行
2026-06-02 15:18:47
好口感+高营养!九阳K7Pro破壁豆浆机复刻太空豆浆的安心密码

好口感+高营养!九阳K7Pro破壁豆浆机复刻太空豆浆的安心密码

中国家电网
2026-06-02 15:20:56
杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

杭州限狗令正式落地,养狗人月花上千,凭什么让不养狗的人买单?

奇思妙想草叶君
2026-06-01 19:40:34
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
一位母亲没能送出的儿童节礼物:离婚诉讼期间生父当街抢走两岁孩子,被拘留15日仍不送还

一位母亲没能送出的儿童节礼物:离婚诉讼期间生父当街抢走两岁孩子,被拘留15日仍不送还

红星新闻
2026-06-02 00:50:25
网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

小徐讲八卦
2026-06-02 09:17:26
猛批华为“韬定律”是学术造假,杨学志到底什么来头?

猛批华为“韬定律”是学术造假,杨学志到底什么来头?

数字财经智库
2026-06-02 11:36:16
2026-06-02 17:07:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7326文章数 20755关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

头条要闻

男子离婚当晚杀害前妻逃亡17年被判死缓 检方抗诉成功

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

游戏
数码
健康
艺术
军事航空

刺客信条:侠隐独占手游无PC版!中国刺客不配3A画质?

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

干细胞临床研究向患者收费?别踩坑

艺术要闻

周杰伦花 1.36 亿拍下这幅画

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版