网易首页 > 网易号 > 正文 申请入驻

清华&通院推出"绝对零"训练法,零外部数据大模型自我博弈解锁推理

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

不用引入外部数据,通过自我博弈(Self-play)就能让预训练大模型学会推理?

来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员,提出了一种名为“绝对零”(Absolute Zero)的训练方式。

这种方法通过让大模型根据推理目标,自己生成并解决任务,便可以获得推理能力。

测试中,用“绝对零”训练出的模型,表现已经超过了用专家标注样本训练的模型。

并且“绝对零”方法只需在代码环境中训练,但可以让模型在数学推理上也取得显著进步。

这项研究也在Reddit上引发了讨论,开帖转载的网友惊叹:会自我进化的AI已经被解锁了?

在出题-做题中自我学习

“绝对零”采用了一种自我博弈的学习范式。在这个范式下,一个统一的语言模型扮演Proposer和Solver两个角色。

Proposer负责生成新的推理任务,Solver负责解决这些任务。通过两个角色的交替和协同,模型可以自主地构建学习任务分布,并在求解任务的过程中不断提升推理能力。

“绝对零”将所有的推理任务统一表示为(p,i,o)(即程序,输入,输出)的三元组形式。

这里的程序是一段可执行的代码,输入是该程序的输入数据,输出是程序在给定输入下的输出结果。

通过这种形式化的表示,原本抽象的推理任务被转化为了一个个具体的程序设计问题,语言模型可以通过生成和操作代码来完成任务的生成和求解。

根据p、i、o是否已知,“绝对零”将推理任务划分为三种基本类型——溯因(Abduction)、演绎(Deduction)和归纳(Induction):

  • 溯因任务:已知p和对应的o,求可能的i。这类任务考察模型根据结果反推条件、理解代码语义的能力。
  • 演绎任务:已知p和i,求o。这类任务考察模型运行和理解代码逻辑的能力。
  • 归纳任务:已知一组i-o样例,求一个统一p。这类任务考察模型归纳总结规律、生成代码的能力。

在自我博弈的训练开始前,“绝对零”需要一个初始的任务集合作为种子(如果基础模型足够强也可以不用)。这个种子集合通过基础语言模型生成一些有效的代码(p,i,o)得到。

当种子集合为空时,“绝对零”会使用一个预定义的“zero triplet”作为起点,实际上就是一个简单的恒等函数:

在每一轮迭代中,Proposer首先根据当前已有的任务集合和给定的任务类型,生成一个新的推理任务。

具体来说,它会先从历史任务中采样一些相关的例子作为参考,然后利用语言模型的生成能力,产生一个新的(p,i,o)三元组。

  • 对于abduction任务,需要生成p和o,但不生成i;
  • 对于deduction任务,需要生成p和i,但不生成o。
  • 对于induction任务,需要生成一组输入输出对(i,o),但不生成p。

另外对于induction任务,Proposer还会从历史的abduction和deduction任务中采样一个程序p,然后生成与之匹配的N个输入输出对(i,o),以及一段自然语言描述。

这种做法可以为induction任务提供更丰富的上下文信息,帮助Solver更好地理解和求解任务。

在生成过程中,Proposer会尝试控制新任务的难度和新颖度,以确保生成的任务对于当前的Solver来说既有意义又具备挑战性。

具体来说,“绝对零”引入了一个“可学习性”(learnability)的概念,用于估计一个任务对于当前的Solver模型来说有多大的学习价值。

它的计算方法是让Solver试着解决这个任务并统计其成功的概率。如果任务太简单或太难,那么这个任务的可学习性就会很低。Proposer的目标就是生成可学习性适中的任务。

生成出的新任务将被送到一个独立的代码执行器中进行验证,执行器会实际运行Proposer生成的程序,检查其是否满足以下条件:

  • 语法正确性:程序能够在Python解释器中正常执行,没有语法错误;
  • 安全性:程序没有使用任何不安全的操作或库,如文件读写、系统调用等;
  • 确定性:程序在相同的输入下,总是产生相同的输出,没有随机性或不确定性。

通过这三个条件的检查,执行器可以滤除绝大部分无效或有害的任务。

对于通过验证的任务,执行器还会计算“可学习性奖励”,作为对Proposer行为的反馈。

最后,所有通过验证的任务会被存入一个任务buffer池中,供后续的训练使用。

在筛选完推理任务后,“绝对零”会转换为Solver的角色,开始解决这些任务,具体方式同样会根据任务的类型而有所不同:

  • 对于abduction任务,Solver要根据给定的p和o推断可能的i。这个过程类似于“反向执行”程序;
  • 对于deduction任务,Solver要根据给定的p和i推断出o。Solver需要模拟程序的执行过程,得出最终的输出结果;
  • 对于induction任务,Solver要根据输入输出对(i,o),推断可能的程序p。Solver需要从有限的样本中总结出一般性的规律。

在求解任务的过程中,Solver可以利用语言模型已有的知识(如常见的算法模式、编程惯例等)来辅助任务的求解。

Solver生成的解会再次通过代码执行器进行验证。执行器会检查Solver给出的输入、输出或程序是否真的满足任务的要求。

如果满足,则视为Solver成功解决了任务,并给予相应的奖励;否则视为Solver失败,不给予奖励或给予惩罚。

这个奖励信号会作为Solver行为的反馈,帮助Solver学习如何更好地解决各种类型的推理任务。

同时,Solver的解决方案也会被记录下来,作为未来生成和求解类似任务的参考。

在每一轮迭代结束时,“绝对零”都会使用Proposer和Solver收集到的反馈信号,对整个模型进行联合优化和更新,使得Proposer生成的任务更有利于学习,Solver解决任务的能力也越来越强。

经过多轮迭代,“绝对零”最终可以收敛到一个很好的均衡点,在这个点上,Proposer生成的任务恰好匹配Solver的能力,Solver又能够从这些任务中学到足够多的知识。

数学代码任务性能双提升

在编程任务上,研究者使用了HumanEval+、MBPP+和LCB三个数据集。

与未经“绝对零”训练的版本相比,“绝对零”将Qwen-2.5-7B-Coder的HumanEval+通过率从80.5%提高到了83.5%,将MBPP+的通过率从69.3%提高到了69.6%,将LCB的通过率从19.9%提高到了31.7%。

在数学推理任务上,研究者选取了6个具有代表性的数据集进行评测,包括AME’24、AME’25、AMC’23、MATH500、Minerva和Olypiad。

“绝对零”在这6个数据集上的平均准确率达到了39.1%,比未经“绝对零”训练的baseline高出了15.2个百分点。

其中,在MATH500数据集上,“绝对零”的准确率达到了72.6%,超出baseline 22.6个百分点;在AMC’23数据集上,“绝对零”的准确率为57.5%,超出baseline 17.5个百分点。

除了Qwen-2.5-7B-Coder,研究者还在其他几个预训练语言模型上测试了“绝对零”的性能:

  • Qwen-2.5-3B-Coder:应用“绝对零”后编程任务平均通过率从51.2%提高到了54.9%,在数学任务上的平均准确率从18.8%提高到了26.5%;
  • Qwen-2.5-14B-Coder:应用“绝对零”后,在编程任务上的平均通过率从60.0%提高到了63.6%,在数学任务上的平均准确率从20.2%提高到了43.0%;
  • Llama-3.1-8B:应用“绝对零”后在编程任务上的平均通过率从28.5%提高到了31.6%,在数学任务上的平均准确率从3.4%提高到了6.8%。

通过对不同规模和类型的语言模型的测试,研究者还发现“绝对零”的性能提升与模型规模呈正相关——参数越多的模型,训练后的性能提升也越大。

例如在数学任务上,30亿参数的Qwen-2.5-3B-Coder模型提升了7.7个百分点,而140亿参数的Qwen-2.5-14B-Coder模型则提升了22.8个百分点。

这表明“绝对零”能够有效地利用大模型的能力,实现更高的推理性能提升。

论文地址:
https://arxiv.org/abs/2505.03335
https://www.reddit.com/r/singularity/comments/1kgr5h3/selfimproving_ai_unlocked/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
28岁,丰满圆润,顶级身材太汹涌了

28岁,丰满圆润,顶级身材太汹涌了

技巧君侃球
2025-12-14 23:49:18
中国股市:庄家要吸够多少筹码才会拉升?字字精华,不懂就别炒股

中国股市:庄家要吸够多少筹码才会拉升?字字精华,不懂就别炒股

股经纵横谈
2026-01-06 20:39:54
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
伊朗抗议者亲手击毙下令射杀群众的伊朗军官

伊朗抗议者亲手击毙下令射杀群众的伊朗军官

桂系007
2026-01-12 00:31:50
天妒英才!四川射箭小将钟翔去世,年仅17岁,长得帅气刚拿省冠军

天妒英才!四川射箭小将钟翔去世,年仅17岁,长得帅气刚拿省冠军

天天热点见闻
2026-01-12 06:03:39
过年为啥要“添新碗”?买几个最好?听听老辈人咋说,买错了闹笑话

过年为啥要“添新碗”?买几个最好?听听老辈人咋说,买错了闹笑话

美食格物
2026-01-12 17:17:08
今天股市相当不对劲!不出意外的话,2020年行情或将会再次重演?

今天股市相当不对劲!不出意外的话,2020年行情或将会再次重演?

股市皆大事
2026-01-12 17:18:46
历史性一幕发生:马杜罗被抓后,世界分成3派,乌克兰最令人气愤

历史性一幕发生:马杜罗被抓后,世界分成3派,乌克兰最令人气愤

文史旺旺旺
2026-01-11 15:47:04
马斯克惊人预言:2026年-2030年,这三大资产未来将一文不值!

马斯克惊人预言:2026年-2030年,这三大资产未来将一文不值!

山丘楼评
2026-01-12 16:48:31
偌大的海南岛面积足有3.4万平方公里,为啥却少有大型港口呢?

偌大的海南岛面积足有3.4万平方公里,为啥却少有大型港口呢?

向航说
2025-12-12 00:40:02
震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

震撼!曾精确预言911的盲眼神婆预测今年8大事件,有一条暗指中国

刀刃故事
2024-11-22 01:55:03
贵金属大涨!黄金再创新高,白银猛拉3%,油价直线拉升

贵金属大涨!黄金再创新高,白银猛拉3%,油价直线拉升

21世纪经济报道
2026-01-12 08:56:03
高市早苗:中国决定对日本两用物项管制是不可接受的

高市早苗:中国决定对日本两用物项管制是不可接受的

俄罗斯卫星通讯社
2026-01-12 15:08:44
安徽一市副市长任上落马!另有两名干部同日被查

安徽一市副市长任上落马!另有两名干部同日被查

凤凰网安徽
2026-01-12 17:51:32
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
U23亚洲杯乱了:越南6分面临出局!中国队迎2好消息,亚足联助攻

U23亚洲杯乱了:越南6分面临出局!中国队迎2好消息,亚足联助攻

侃球熊弟
2026-01-12 20:29:42
田朴珺罕见秀恩爱,带王石剪了个新发型年轻不少!5岁女儿像爸爸

田朴珺罕见秀恩爱,带王石剪了个新发型年轻不少!5岁女儿像爸爸

娱乐团长
2026-01-10 11:48:47
BLACKPINK Lisa「透视装」现身金球奖!中空被看光 颁奖将创2纪录

BLACKPINK Lisa「透视装」现身金球奖!中空被看光 颁奖将创2纪录

ETtoday星光云
2026-01-12 10:06:07
1950年湖北土改踢到铁板,地主拍桌子吼道:去北京打听打听我是谁!李先念无奈拨通一个电话,对面只回了一句话,彻底安静了

1950年湖北土改踢到铁板,地主拍桌子吼道:去北京打听打听我是谁!李先念无奈拨通一个电话,对面只回了一句话,彻底安静了

源溯历史
2026-01-05 16:24:20
为啥买熟食的人变少了?行家:一斤鲜牛肉煮出两斤酱牛肉,啥原因

为啥买熟食的人变少了?行家:一斤鲜牛肉煮出两斤酱牛肉,啥原因

单手搓核弹
2025-12-30 14:07:35
2026-01-12 21:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12006文章数 176358关注度
往期回顾 全部

科技要闻

面对SpaceX疯狂“下饺子” 中国正面接招

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

头条要闻

女子坐火车遇71岁初中班主任 被一口叫出名字感动落泪

体育要闻

聪明的球员,不是教练教出来的

娱乐要闻

蔡少芬结婚18周年,与张晋过二人世界

财经要闻

倍轻松信披迷雾 实控人占用资金金额存疑

汽车要闻

增配不加价 北京现代 第五代 胜达2026款上市

态度原创

教育
健康
时尚
公开课
军事航空

教育要闻

刚迎超长寒假!北京中小学又撞上近十年“最短学期”?!

血常规3项异常,是身体警报!

伊姐周日热推:电视剧《御赐小仵作2》;电视剧《偶像疯子》......

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

官方确认:歼10CE在空战中击落多架战机

无障碍浏览 进入关怀版