网易首页 > 网易号 > 正文 申请入驻

清华&通院推出"绝对零"训练法,零外部数据大模型自我博弈解锁推理

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

不用引入外部数据,通过自我博弈(Self-play)就能让预训练大模型学会推理?

来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员,提出了一种名为“绝对零”(Absolute Zero)的训练方式。

这种方法通过让大模型根据推理目标,自己生成并解决任务,便可以获得推理能力。

测试中,用“绝对零”训练出的模型,表现已经超过了用专家标注样本训练的模型。

并且“绝对零”方法只需在代码环境中训练,但可以让模型在数学推理上也取得显著进步。

这项研究也在Reddit上引发了讨论,开帖转载的网友惊叹:会自我进化的AI已经被解锁了?

在出题-做题中自我学习

“绝对零”采用了一种自我博弈的学习范式。在这个范式下,一个统一的语言模型扮演Proposer和Solver两个角色。

Proposer负责生成新的推理任务,Solver负责解决这些任务。通过两个角色的交替和协同,模型可以自主地构建学习任务分布,并在求解任务的过程中不断提升推理能力。

“绝对零”将所有的推理任务统一表示为(p,i,o)(即程序,输入,输出)的三元组形式。

这里的程序是一段可执行的代码,输入是该程序的输入数据,输出是程序在给定输入下的输出结果。

通过这种形式化的表示,原本抽象的推理任务被转化为了一个个具体的程序设计问题,语言模型可以通过生成和操作代码来完成任务的生成和求解。

根据p、i、o是否已知,“绝对零”将推理任务划分为三种基本类型——溯因(Abduction)、演绎(Deduction)和归纳(Induction):

  • 溯因任务:已知p和对应的o,求可能的i。这类任务考察模型根据结果反推条件、理解代码语义的能力。
  • 演绎任务:已知p和i,求o。这类任务考察模型运行和理解代码逻辑的能力。
  • 归纳任务:已知一组i-o样例,求一个统一p。这类任务考察模型归纳总结规律、生成代码的能力。

在自我博弈的训练开始前,“绝对零”需要一个初始的任务集合作为种子(如果基础模型足够强也可以不用)。这个种子集合通过基础语言模型生成一些有效的代码(p,i,o)得到。

当种子集合为空时,“绝对零”会使用一个预定义的“zero triplet”作为起点,实际上就是一个简单的恒等函数:

在每一轮迭代中,Proposer首先根据当前已有的任务集合和给定的任务类型,生成一个新的推理任务。

具体来说,它会先从历史任务中采样一些相关的例子作为参考,然后利用语言模型的生成能力,产生一个新的(p,i,o)三元组。

  • 对于abduction任务,需要生成p和o,但不生成i;
  • 对于deduction任务,需要生成p和i,但不生成o。
  • 对于induction任务,需要生成一组输入输出对(i,o),但不生成p。

另外对于induction任务,Proposer还会从历史的abduction和deduction任务中采样一个程序p,然后生成与之匹配的N个输入输出对(i,o),以及一段自然语言描述。

这种做法可以为induction任务提供更丰富的上下文信息,帮助Solver更好地理解和求解任务。

在生成过程中,Proposer会尝试控制新任务的难度和新颖度,以确保生成的任务对于当前的Solver来说既有意义又具备挑战性。

具体来说,“绝对零”引入了一个“可学习性”(learnability)的概念,用于估计一个任务对于当前的Solver模型来说有多大的学习价值。

它的计算方法是让Solver试着解决这个任务并统计其成功的概率。如果任务太简单或太难,那么这个任务的可学习性就会很低。Proposer的目标就是生成可学习性适中的任务。

生成出的新任务将被送到一个独立的代码执行器中进行验证,执行器会实际运行Proposer生成的程序,检查其是否满足以下条件:

  • 语法正确性:程序能够在Python解释器中正常执行,没有语法错误;
  • 安全性:程序没有使用任何不安全的操作或库,如文件读写、系统调用等;
  • 确定性:程序在相同的输入下,总是产生相同的输出,没有随机性或不确定性。

通过这三个条件的检查,执行器可以滤除绝大部分无效或有害的任务。

对于通过验证的任务,执行器还会计算“可学习性奖励”,作为对Proposer行为的反馈。

最后,所有通过验证的任务会被存入一个任务buffer池中,供后续的训练使用。

在筛选完推理任务后,“绝对零”会转换为Solver的角色,开始解决这些任务,具体方式同样会根据任务的类型而有所不同:

  • 对于abduction任务,Solver要根据给定的p和o推断可能的i。这个过程类似于“反向执行”程序;
  • 对于deduction任务,Solver要根据给定的p和i推断出o。Solver需要模拟程序的执行过程,得出最终的输出结果;
  • 对于induction任务,Solver要根据输入输出对(i,o),推断可能的程序p。Solver需要从有限的样本中总结出一般性的规律。

在求解任务的过程中,Solver可以利用语言模型已有的知识(如常见的算法模式、编程惯例等)来辅助任务的求解。

Solver生成的解会再次通过代码执行器进行验证。执行器会检查Solver给出的输入、输出或程序是否真的满足任务的要求。

如果满足,则视为Solver成功解决了任务,并给予相应的奖励;否则视为Solver失败,不给予奖励或给予惩罚。

这个奖励信号会作为Solver行为的反馈,帮助Solver学习如何更好地解决各种类型的推理任务。

同时,Solver的解决方案也会被记录下来,作为未来生成和求解类似任务的参考。

在每一轮迭代结束时,“绝对零”都会使用Proposer和Solver收集到的反馈信号,对整个模型进行联合优化和更新,使得Proposer生成的任务更有利于学习,Solver解决任务的能力也越来越强。

经过多轮迭代,“绝对零”最终可以收敛到一个很好的均衡点,在这个点上,Proposer生成的任务恰好匹配Solver的能力,Solver又能够从这些任务中学到足够多的知识。

数学代码任务性能双提升

在编程任务上,研究者使用了HumanEval+、MBPP+和LCB三个数据集。

与未经“绝对零”训练的版本相比,“绝对零”将Qwen-2.5-7B-Coder的HumanEval+通过率从80.5%提高到了83.5%,将MBPP+的通过率从69.3%提高到了69.6%,将LCB的通过率从19.9%提高到了31.7%。

在数学推理任务上,研究者选取了6个具有代表性的数据集进行评测,包括AME’24、AME’25、AMC’23、MATH500、Minerva和Olypiad。

“绝对零”在这6个数据集上的平均准确率达到了39.1%,比未经“绝对零”训练的baseline高出了15.2个百分点。

其中,在MATH500数据集上,“绝对零”的准确率达到了72.6%,超出baseline 22.6个百分点;在AMC’23数据集上,“绝对零”的准确率为57.5%,超出baseline 17.5个百分点。

除了Qwen-2.5-7B-Coder,研究者还在其他几个预训练语言模型上测试了“绝对零”的性能:

  • Qwen-2.5-3B-Coder:应用“绝对零”后编程任务平均通过率从51.2%提高到了54.9%,在数学任务上的平均准确率从18.8%提高到了26.5%;
  • Qwen-2.5-14B-Coder:应用“绝对零”后,在编程任务上的平均通过率从60.0%提高到了63.6%,在数学任务上的平均准确率从20.2%提高到了43.0%;
  • Llama-3.1-8B:应用“绝对零”后在编程任务上的平均通过率从28.5%提高到了31.6%,在数学任务上的平均准确率从3.4%提高到了6.8%。

通过对不同规模和类型的语言模型的测试,研究者还发现“绝对零”的性能提升与模型规模呈正相关——参数越多的模型,训练后的性能提升也越大。

例如在数学任务上,30亿参数的Qwen-2.5-3B-Coder模型提升了7.7个百分点,而140亿参数的Qwen-2.5-14B-Coder模型则提升了22.8个百分点。

这表明“绝对零”能够有效地利用大模型的能力,实现更高的推理性能提升。

论文地址:
https://arxiv.org/abs/2505.03335
https://www.reddit.com/r/singularity/comments/1kgr5h3/selfimproving_ai_unlocked/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国华裔科学家李飞飞:若夺下诺贝尔奖,我定以中国人身份领奖!

美国华裔科学家李飞飞:若夺下诺贝尔奖,我定以中国人身份领奖!

领悟看世界
2026-04-09 01:04:16
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
亏了14.7万!惊魂一跳!A股怎么办?

亏了14.7万!惊魂一跳!A股怎么办?

龙行天下虎
2026-05-22 00:02:40
英国首相闪电下台,政坛地震震碎政治梦

英国首相闪电下台,政坛地震震碎政治梦

点燃好奇心
2026-05-21 22:28:24
詹姆斯:罗宾逊到邓肯再到文班,马刺真TM幸运总能得到绝世天才

詹姆斯:罗宾逊到邓肯再到文班,马刺真TM幸运总能得到绝世天才

懂球帝
2026-05-21 22:58:02
男子买1万多元榴莲错付成11万多元,几个月后才发现,原是销售员谎称办退款偷偷侵占,商家:员工已被警方抓获,自己先垫付了10万余元给买家

男子买1万多元榴莲错付成11万多元,几个月后才发现,原是销售员谎称办退款偷偷侵占,商家:员工已被警方抓获,自己先垫付了10万余元给买家

极目新闻
2026-05-21 17:07:16
武汉“癌症村”涉事工厂老板:检测前有人打电话,让我堵上排污口

武汉“癌症村”涉事工厂老板:检测前有人打电话,让我堵上排污口

网易新闻出品
2026-05-20 12:14:13
穆里尼奥狂喜!哈兰德正式摊牌曼城:终身合同作废,非皇马不去

穆里尼奥狂喜!哈兰德正式摊牌曼城:终身合同作废,非皇马不去

奶盖熊本熊
2026-05-22 01:01:17
普京前脚刚走,后脚就又有重磅人物要访华?中方这盘棋下得够大

普京前脚刚走,后脚就又有重磅人物要访华?中方这盘棋下得够大

小陆搞笑日常
2026-05-22 01:10:30
任达华李丽珍经典激情戏翻红,网友:当年看懵不敢声张

任达华李丽珍经典激情戏翻红,网友:当年看懵不敢声张

蒂蒂茱家
2026-05-21 10:07:29
《主角》张嘉益哭到哽咽,刘浩存全程眼神呆滞,老戏骨都带不动

《主角》张嘉益哭到哽咽,刘浩存全程眼神呆滞,老戏骨都带不动

一娱三分地
2026-05-20 14:20:51
张雪机车连夺5冠!意大利媒体人发表专业文章,披露张雪机车真相

张雪机车连夺5冠!意大利媒体人发表专业文章,披露张雪机车真相

火山詩话
2026-05-20 08:11:33
就吃了三天!骨头缝里的寒气被“连根拔起”!老寒腿自己发热了

就吃了三天!骨头缝里的寒气被“连根拔起”!老寒腿自己发热了

房产衫哥
2026-05-14 12:26:33
小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

妍妍教育日记
2026-05-15 08:20:14
李冰冰自曝与妹妹李雪因工作吵架:删除微信、最长3个多月不说话......

李冰冰自曝与妹妹李雪因工作吵架:删除微信、最长3个多月不说话......

鲁中晨报
2026-05-19 11:30:04
李显龙紧急抵华:他这一趟,只为替黄循财的“外交翻车”买单

李显龙紧急抵华:他这一趟,只为替黄循财的“外交翻车”买单

流史岁月
2026-05-20 18:30:03
鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

鸠山由纪夫戳破真相,当年免掉千亿赔款,实则给日本立了个死规定

云霄纪史观
2026-05-20 13:16:50
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
惨烈!CBA半决赛又倒4人!广厦双核伤退埋隐忧,上海队渔利在望

惨烈!CBA半决赛又倒4人!广厦双核伤退埋隐忧,上海队渔利在望

天光破云来
2026-05-22 06:12:59
我在加尔各答的青旅里,看着谷歌用12小时26亿token拆掉旧互联网

我在加尔各答的青旅里,看着谷歌用12小时26亿token拆掉旧互联网

摸鱼算法
2026-05-21 00:42:35
2026-05-22 07:15:00
量子位 incentive-icons
量子位
追踪人工智能动态
12670文章数 176467关注度
往期回顾 全部

科技要闻

小米YU7 GT正式发布:售价38.99万元

头条要闻

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

头条要闻

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

潮水退去,裸泳的一定不止五粮液

汽车要闻

雷军:YU7首战Model Y八败两胜 输给全球销冠不丢人

态度原创

旅游
房产
健康
公开课
军事航空

旅游要闻

“慢”游特卡波湖(域外见闻)

房产要闻

顺德澐璟楼王『澐冠』启幕|一场高阶共鸣的静奢美学之约

外泌体与干细胞竟是“快递”与“工厂”的关系?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗警告:任何新袭击将促使战场扩大到中东以外

无障碍浏览 进入关怀版