网易首页 > 网易号 > 正文 申请入驻

不更新参数就能强化学习!翁家翌新范式:决策只需AI写个.py文件

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

没有训练梯度的AI,打破了Atari游戏满分纪录。

OpenAI核心研究员翁家翌提出了一个强化学习新范式——

启发式学习(Heuristic Learning, HL)



全程无神经网络训练、无梯度更新,全程靠GPT-5.4驱动的Codex自主迭代,硬是在经典游戏Breakout上打到了864分理论满分。



与传统深度强化学习优化神经网络参数不同,HL不依赖可微权重存储策略,而是将决策逻辑迁移到离散程序空间,以代码编辑替代梯度下降,通过显式的符号规则实现状态-动作映射。

在游戏、机器人仿真多项任务里,该方法性能甚至超过老牌强化学习算法PPO。

以程序代码为载体

传统深度强化学习(DRL)长期默认智能体的决策核心必须依托神经网络实现。

比如在游戏里,当观测到游戏小球位于左侧时,神经网络通过复杂映射直接输出「向左移动」的动作;

但整个决策过程是隐式黑箱的,没人能清晰拆解内部逻辑,只能依赖梯度下降算法盲目迭代拟合。

也正因这种底层架构,深度强化学习始终难以逾越三大核心瓶颈。

一是灾难性遗忘。神经网络以参数存储习得技能,新任务的梯度迭代会直接覆盖旧有权重,无法实现多任务持续学习。

二是决策黑箱、不可解释。智能体每一次动作选择都隐藏在海量网络权重与矩阵运算中,无法追溯决策依据,也不能人工干预、拆解逻辑。

三是样本效率低下。依赖海量环境交互数据完成训练迭代,收敛周期长、算力消耗巨大,整体研发与落地成本高。

HL的思路很直接,既然参数更新是问题的根源,那干脆不要参数。

它把智能体的决策策略从神经网络的权重转化为可读的程序代码,把学习从梯度优化变成代码编辑。

在HL的框架里,AI维护的不再是单一策略文件,而是一套完整的智能化软件系统:

显式的状态检测器(“球在左上方,速度向右”)、显式的规则逻辑(“如果球将落在左侧,则向左移动”)、还有测试用例、回归检查、失败记录、版本历史。

每次迭代,Codex会审视系统表现,阅读失败录像,分析日志,然后做出结构性调整。



这种范式的关键的优势是:知识是显式的。

旧能力不会被覆盖,而是封装成模块和测试,随时可调用、可验证、可传承。

就像翁家翌说的:

HL把持续学习从“如何更新参数”变成了”如何维护一个持续吸收反馈的软件系统”。

当然,HL并不是完全排斥梯度技术,它内部某些组件(如模型预测控制MPC)仍然会用梯度做局部搜索。

但关键在于这类梯度运算不用于神经网络训练与参数更新,仅服务于实时动作决策。



而且这种架构设计让HL原生自带可解释、抗遗忘、高效率的特性。

Atari满分,机器人控制SOTA

不只是拿到Breakout的864分,翁家翌完成了完整的Atari 57大规模测试(Atari 57是行业公认的强化学习基准测试集,包含57款不同类型的经典游戏,覆盖离散动作空间的各类决策场景)。

每款游戏设置两种观测模式,各自重复三轮实验,最终生成342条独立的智能编码迭代轨迹。

结果显示,在统一环境交互步数的前提下,启发式学习HL的整体中位表现,已经和PPO等主流深度强化学习算法持平。

在Breakout、Asterix、Jamesbond等多款经典游戏中,成绩甚至超越人类玩家基准水平。

相比游戏离散决策,MuJoCo机器人连续控制任务难度更高。

以四足机器人Ant为例,需要协同调控8个关节,在高维连续动作空间中维持动态平衡。

启发式学习HL从基础节律步态规则起步,逐步迭代加入姿态反馈、触地信号感知、短程模型预测等逻辑,最终综合评分突破6000 分,性能完全对标专业深度强化学习模型。



在HalfCheetah猎豹仿真任务中,HL更是跑出了11836的平均高分,展现出在复杂连续控制场景的极强适配能力。



不过翁家翌也没有回避HL的边界。

他直言:

在我目前认知范围内,我想不出有个agent能搓出一个纯Python code、不用神经网络去解决 ImageNet。

从原始像素中完成目标识别、特征抽象,依旧是深度神经网络不可替代的强项。

而启发式学习HL的核心价值,集中体现在策略持续迭代层面,当环境动态变化、需要长期自适应调整行为逻辑时,显性化的代码规则系统更适配持续学习需求。

所以,当下关键的命题在于如何把神经网络与HL有机融合,一并攻克在线学习与持续学习两大难题。

翁家翌指出最具落地前景的思路是,依托HL实时处理在线环境数据流,快速沉淀可复用的在线行为经验;

再将这些显性经验整理、内化,转化为可训练、可回归、可筛选的高质量数据集,反过来对神经网络做周期性迭代更新。


[1]https://x.com/Trinkle23897/status/2052596837547495549
[2]https://trinkle23897.github.io/learning-beyond-gradients

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
HU7478航班延误1小时,机舱过道内“站着不少人”!航司回应:系旅客突发事件

HU7478航班延误1小时,机舱过道内“站着不少人”!航司回应:系旅客突发事件

极目新闻
2026-05-09 13:55:58
乌军精准点穴令普京暴怒,泽连斯基批准莫斯科免死区域

乌军精准点穴令普京暴怒,泽连斯基批准莫斯科免死区域

西楼饮月
2026-05-09 16:34:50
实在没办法了,伊朗疑似将大量原油倒入海中!

实在没办法了,伊朗疑似将大量原油倒入海中!

阿龙聊军事
2026-05-09 11:10:25
章建平砸5.5亿!10种航天材料比稀土还香,才是真硬通货

章建平砸5.5亿!10种航天材料比稀土还香,才是真硬通货

慧眼看世界哈哈
2026-05-09 10:24:15
人民日报证实莫言的警告:人真的会被气死!70%的重病跟情绪有关,这3个致命伤害往往来自3种身边人!

人民日报证实莫言的警告:人真的会被气死!70%的重病跟情绪有关,这3个致命伤害往往来自3种身边人!

职场火锅
2026-05-06 21:52:40
外资家电大撤退,但中国品牌还没赢

外资家电大撤退,但中国品牌还没赢

螺旋实验室
2026-05-08 18:30:22
人均将分320万元!SK海力士“带飞”周边房价,员工地位超越医生律师,三星200人跳槽过来

人均将分320万元!SK海力士“带飞”周边房价,员工地位超越医生律师,三星200人跳槽过来

每日经济新闻
2026-05-09 15:14:43
拒绝再被消费!梅西首次公开评价C罗,真相让无数老球迷泪目了

拒绝再被消费!梅西首次公开评价C罗,真相让无数老球迷泪目了

无人倾听无人倾听
2026-05-09 16:28:35
因虚假宣传!苹果宣布支付17亿元天价赔偿:iPhone 15 Pro/16用户最高可获赔646元 但没有中国

因虚假宣传!苹果宣布支付17亿元天价赔偿:iPhone 15 Pro/16用户最高可获赔646元 但没有中国

中国能源网
2026-05-08 11:09:03
伊朗凌晨发动第二轮打击,动用多种高爆导弹,美军遭遇失利

伊朗凌晨发动第二轮打击,动用多种高爆导弹,美军遭遇失利

李橑在北漂
2026-05-09 11:49:17
强对流天气来京!雷暴、大风、冰雹可能同时出现,具体时段——

强对流天气来京!雷暴、大风、冰雹可能同时出现,具体时段——

北青网-北京青年报
2026-05-09 14:03:21
5月9日央视乒乓直播调整,世乒赛决赛王楚钦迎终极考验

5月9日央视乒乓直播调整,世乒赛决赛王楚钦迎终极考验

老牛体育解说
2026-05-09 11:48:37
Fitbit Air发布:99美元无屏手环,库里戴了数周

Fitbit Air发布:99美元无屏手环,库里戴了数周

我是一个粉刷匠2
2026-05-08 01:07:03
茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

茶行业最大的笑话:绕过茶商,用便宜的价格买到茶农的好茶!

普洱话江湖
2026-05-08 14:12:29
弘一法师悟道:人活着,其实就两件事,想通了,一辈子都顺了

弘一法师悟道:人活着,其实就两件事,想通了,一辈子都顺了

心理观察局
2026-05-09 09:10:05
官方:F1拟将明年内燃机功率提升50千瓦,ERS电能功率降低50千瓦

官方:F1拟将明年内燃机功率提升50千瓦,ERS电能功率降低50千瓦

懂球帝
2026-05-09 16:43:08
海参崴的街头:勿忘历史伤痛,更需守住家国立场

海参崴的街头:勿忘历史伤痛,更需守住家国立场

番外行
2026-05-09 08:23:51
于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

华人星光
2024-11-07 13:39:41
砸22亿!OPPO在东莞建了一批“O字楼”

砸22亿!OPPO在东莞建了一批“O字楼”

GA环球建筑
2026-05-09 00:40:09
事业没了,婚也离了,封杀5年赵薇再次露面,原来她还有一条退路

事业没了,婚也离了,封杀5年赵薇再次露面,原来她还有一条退路

临云史策
2026-05-09 16:25:56
2026-05-09 18:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12597文章数 176461关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出!

财经要闻

存储芯片上演造富潮

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

数码
教育
时尚
手机
军事航空

数码要闻

当贝2S Ultra:AI智养+干湿分离+全色域灯,养鱼一步到位

教育要闻

商学院地理位置怎么影响求职?雷丁与北部城市的差距,比你想的大

今年春夏最火的3个穿搭思路,普通人可以直接照搬吗?

手机要闻

红魔11S Pro官宣搭载第五代骁龙8至尊领先版

军事要闻

美伊突然再次交火 伊朗外长:战争准备程度是1000%

无障碍浏览 进入关怀版