网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

不更新参数就能强化学习！翁家翌新范式：决策只需AI写个.py文件

2026-05-09 16:05:57　来源: 量子位

北京举报

0

分享至

闻乐发自凹非寺
量子位 | 公众号 QbitAI

没有训练梯度的AI，打破了Atari游戏满分纪录。

OpenAI核心研究员翁家翌提出了一个强化学习新范式——

启发式学习（Heuristic Learning, HL）

全程无神经网络训练、无梯度更新，全程靠GPT-5.4驱动的Codex自主迭代，硬是在经典游戏Breakout上打到了864分理论满分。

与传统深度强化学习优化神经网络参数不同，HL不依赖可微权重存储策略，而是将决策逻辑迁移到离散程序空间，以代码编辑替代梯度下降，通过显式的符号规则实现状态-动作映射。

在游戏、机器人仿真多项任务里，该方法性能甚至超过老牌强化学习算法PPO。

以程序代码为载体

传统深度强化学习（DRL）长期默认智能体的决策核心必须依托神经网络实现。

比如在游戏里，当观测到游戏小球位于左侧时，神经网络通过复杂映射直接输出「向左移动」的动作；

但整个决策过程是隐式黑箱的，没人能清晰拆解内部逻辑，只能依赖梯度下降算法盲目迭代拟合。

也正因这种底层架构，深度强化学习始终难以逾越三大核心瓶颈。

一是灾难性遗忘。神经网络以参数存储习得技能，新任务的梯度迭代会直接覆盖旧有权重，无法实现多任务持续学习。

二是决策黑箱、不可解释。智能体每一次动作选择都隐藏在海量网络权重与矩阵运算中，无法追溯决策依据，也不能人工干预、拆解逻辑。

三是样本效率低下。依赖海量环境交互数据完成训练迭代，收敛周期长、算力消耗巨大，整体研发与落地成本高。

HL的思路很直接，既然参数更新是问题的根源，那干脆不要参数。

它把智能体的决策策略从神经网络的权重转化为可读的程序代码，把学习从梯度优化变成代码编辑。

在HL的框架里，AI维护的不再是单一策略文件，而是一套完整的智能化软件系统：

显式的状态检测器（“球在左上方，速度向右”）、显式的规则逻辑（“如果球将落在左侧，则向左移动”）、还有测试用例、回归检查、失败记录、版本历史。

每次迭代，Codex会审视系统表现，阅读失败录像，分析日志，然后做出结构性调整。

这种范式的关键的优势是：知识是显式的。

旧能力不会被覆盖，而是封装成模块和测试，随时可调用、可验证、可传承。

就像翁家翌说的：

HL把持续学习从“如何更新参数”变成了”如何维护一个持续吸收反馈的软件系统”。

当然，HL并不是完全排斥梯度技术，它内部某些组件（如模型预测控制MPC）仍然会用梯度做局部搜索。

但关键在于这类梯度运算不用于神经网络训练与参数更新，仅服务于实时动作决策。

而且这种架构设计让HL原生自带可解释、抗遗忘、高效率的特性。

Atari满分，机器人控制SOTA

不只是拿到Breakout的864分，翁家翌完成了完整的Atari 57大规模测试（Atari 57是行业公认的强化学习基准测试集，包含57款不同类型的经典游戏，覆盖离散动作空间的各类决策场景）。

每款游戏设置两种观测模式，各自重复三轮实验，最终生成342条独立的智能编码迭代轨迹。

结果显示，在统一环境交互步数的前提下，启发式学习HL的整体中位表现，已经和PPO等主流深度强化学习算法持平。

在Breakout、Asterix、Jamesbond等多款经典游戏中，成绩甚至超越人类玩家基准水平。

相比游戏离散决策，MuJoCo机器人连续控制任务难度更高。

以四足机器人Ant为例，需要协同调控8个关节，在高维连续动作空间中维持动态平衡。

启发式学习HL从基础节律步态规则起步，逐步迭代加入姿态反馈、触地信号感知、短程模型预测等逻辑，最终综合评分突破6000 分，性能完全对标专业深度强化学习模型。

在HalfCheetah猎豹仿真任务中，HL更是跑出了11836的平均高分，展现出在复杂连续控制场景的极强适配能力。

不过翁家翌也没有回避HL的边界。

他直言：

在我目前认知范围内，我想不出有个agent能搓出一个纯Python code、不用神经网络去解决 ImageNet。

从原始像素中完成目标识别、特征抽象，依旧是深度神经网络不可替代的强项。

而启发式学习HL的核心价值，集中体现在策略持续迭代层面，当环境动态变化、需要长期自适应调整行为逻辑时，显性化的代码规则系统更适配持续学习需求。

所以，当下关键的命题在于如何把神经网络与HL有机融合，一并攻克在线学习与持续学习两大难题。

翁家翌指出最具落地前景的思路是，依托HL实时处理在线环境数据流，快速沉淀可复用的在线行为经验；

再将这些显性经验整理、内化，转化为可训练、可回归、可筛选的高质量数据集，反过来对神经网络做周期性迭代更新。

[1]https://x.com/Trinkle23897/status/2052596837547495549
[2]https://trinkle23897.github.io/learning-beyond-gradients

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

OpenAI翁家翌：梯度之外，下一个AI训练范式有着落了？

机器之心Pro 2026-05-09 11:45:42
0 跟贴 0
生成式Critic重新定义LLM强化学习信用分配

机器之心Pro 2026-05-09 14:52:19
0 跟贴 0

神经计算机横空出世：AI不再调用软件，而是直接长成一台计算机

DeepTech深科技 2026-05-03 18:24:37
30 跟贴 30

24岁掌管55亿美元！从被OpenAI扫地出门到华尔街投资新王：Leopold的“开挂人生”

财联社 2026-05-09 13:52:08
3 跟贴 3
给猫做MBTI画像，17.9g的AI项圈能撬动百亿生意吗？

钛媒体APP 2026-05-09 17:26:29
0 跟贴 0

AI突现首例自我复制！横跨4国160小时无限繁殖

新智元 2026-05-09 18:31:30
0 跟贴 0

xAI工程师晒离职！11位联创全走，马斯克600亿拉来Cursor重建

新智元 2026-05-09 18:30:34
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

超2000亿！字节被曝大手笔加码AI算力，侧重国产芯片

智东西 2026-05-09 18:31:16
0 跟贴 0
女子拿爱心冰箱的免费水洗脚，下一秒“现世报”滑倒跪地，网友：善有善报，恶有恶报

BRTV新闻 2026-05-08 21:12:25
788 跟贴 788
从参数到外观：汽车行业的最后一场竞争

基地边缘BaseEdge 2026-05-08 17:48:10
1 跟贴 1
孙子兵道：一将难求与将才矩阵

陈相灵TALK 2026-05-08 19:44:33
0 跟贴 0
超长标题：体验广汽丰田2026款铂智3X全场景智能辅助驾驶功能（Momenta R6强化学习大模型）

菲常视界 2026-05-09 10:37:28
0 跟贴 0
万帧照片级仿真：国产仿真器GS-Playground入选RSS 2026

机器之心Pro 2026-05-07 18:00:54
0 跟贴 0
透过铂智3X这股狠劲，读懂大厂迭代真正的含金量

汽车十三行 2026-05-08 22:03:44
0 跟贴 0
外卖小哥冒死冲进火场救火被物业收取50元“灭火器使用费”

闪电新闻 2026-05-09 09:31:06
5992 跟贴 5992
强化学习实战训练营①：从零入门，一节课搞懂 RL 核心逻辑！强化学习入门基础与核心概念详解！

卢菁老师 2026-05-06 09:13:22
0 跟贴 0
PlayStation押注AI：技术边界在哪，玩家该担心什么

别打我我投降 2026-05-09 16:20:51
0 跟贴 0
媒体：沙特被美国激怒海湾国家或将深化与中国关系

澎湃新闻 2026-05-08 17:48:29
3452 跟贴 3452
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
天舟飞船为什么不回收而是坠入大海？专家：增加返回功能会挤占运货空间，飞船大部分结构烧蚀气化，少量残骸不会造成威胁

极目新闻 2026-05-08 21:58:00
5193 跟贴 5193
当政客不再在乎真假：一种被忽视的虚假信息

万物皆可科普啊 2026-05-09 16:22:29
0 跟贴 0
135高考数学II卷 (理) 计算 22 参数方程与极坐标方程

我服子佩 2026-05-08 22:55:08
1 跟贴 1
监控下的一幕，真正的彪悍不要辩解，最好的决策来自快速出手

搞怪趣星球 2026-05-05 08:55:53
1 跟贴 1
“排队3小时，打卡1分钟”，多景区迎“泼天流量”

澎湃新闻 2026-05-06 00:04:10
3855 跟贴 3855
嘴炮王者谭sir竟被逻辑女帝反杀成渣：愿大姐被岁月温柔以待

解压小剧场 2026-05-09 08:17:50
3 跟贴 3
【AI大模型安全与评测】从DeepSeek-V4拆解真实评估逻辑，90%的人都搞错了！企业级大模型评

卢菁老师 2026-05-09 09:07:47
0 跟贴 0
续航710km电动车参数亮眼，开完一周才想起充电

你笑的好甜美 2026-05-06 04:46:52
1 跟贴 1
剥夺大模型执行权！港中文开源Agent治理内核，高危拦截率达92.95%

新智元 2026-05-09 12:08:54
0 跟贴 0
一上强度就输球，湖人一招被拆解，策略不能用了，亮点只剩一个

体坛大辣椒 2026-05-08 13:14:01
1 跟贴 1
茶颜悦色，装不下去了

中国新闻周刊 2026-05-07 22:15:57
303 跟贴 303
姑娘大胆行事毫不畏惧，有备而来策略暗藏，惊人表现让人惊叹

搞笑小捣蛋 2026-05-07 00:00:00
0 跟贴 0
河北多地漫天杨絮似大雪纷飞省绿办：多年前曾定下治理时间表每年都有打药等防治措施

闪电新闻 2026-05-09 12:40:08
133 跟贴 133
一半模型巧解小学几何

天天数理学习分享 2026-05-08 16:04:22
1 跟贴 1
iOS 26.5下周正式推送，一口气上线五大新功能

环球网资讯 2026-05-08 10:49:06
533 跟贴 533
海关总署：前4个月中国货物贸易进出口总值增长14.9%

财联社 2026-05-09 10:57:06
1482 跟贴 1482
“排队火过迪士尼”？上海这个“小花园”一年只开1个月！最新：已增加每周开放时间！

新民晚报 2026-05-08 16:56:04
168 跟贴 168
法国工作室陷风波：大裁员来临员工愤而罢工！

游民星空 2026-05-07 09:39:12
4 跟贴 4
京东招“AI天才”，年薪无上限还配专属算力

i黑马 2026-05-09 18:13:45
0 跟贴 0
70%选民反对：数据中心成美国最 bipartisan 议题

爬虫饲养员 2026-05-05 10:00:47
0 跟贴 0

HU7478航班延误1小时，机舱过道内“站着不少人”！航司回应：系旅客突发事件

HU7478航班延误1小时，机舱过道内“站着不少人”！航司回应：系旅客突发事件

极目新闻

2026-05-09 13:55:58

乌军精准点穴令普京暴怒，泽连斯基批准莫斯科免死区域

乌军精准点穴令普京暴怒，泽连斯基批准莫斯科免死区域

西楼饮月

2026-05-09 16:34:50

实在没办法了，伊朗疑似将大量原油倒入海中！

实在没办法了，伊朗疑似将大量原油倒入海中！

阿龙聊军事

2026-05-09 11:10:25

章建平砸5.5亿！10种航天材料比稀土还香，才是真硬通货

章建平砸5.5亿！10种航天材料比稀土还香，才是真硬通货

慧眼看世界哈哈

2026-05-09 10:24:15

人民日报证实莫言的警告：人真的会被气死！70%的重病跟情绪有关，这3个致命伤害往往来自3种身边人！

人民日报证实莫言的警告：人真的会被气死！70%的重病跟情绪有关，这3个致命伤害往往来自3种身边人！

职场火锅

2026-05-06 21:52:40

外资家电大撤退，但中国品牌还没赢

外资家电大撤退，但中国品牌还没赢

螺旋实验室

2026-05-08 18:30:22

人均将分320万元！SK海力士“带飞”周边房价，员工地位超越医生律师，三星200人跳槽过来

人均将分320万元！SK海力士“带飞”周边房价，员工地位超越医生律师，三星200人跳槽过来

每日经济新闻

2026-05-09 15:14:43

拒绝再被消费！梅西首次公开评价C罗，真相让无数老球迷泪目了

拒绝再被消费！梅西首次公开评价C罗，真相让无数老球迷泪目了

无人倾听无人倾听

2026-05-09 16:28:35

因虚假宣传！苹果宣布支付17亿元天价赔偿：iPhone 15 Pro/16用户最高可获赔646元但没有中国

因虚假宣传！苹果宣布支付17亿元天价赔偿：iPhone 15 Pro/16用户最高可获赔646元但没有中国

中国能源网

2026-05-08 11:09:03

伊朗凌晨发动第二轮打击，动用多种高爆导弹，美军遭遇失利

伊朗凌晨发动第二轮打击，动用多种高爆导弹，美军遭遇失利

李橑在北漂

2026-05-09 11:49:17

强对流天气来京！雷暴、大风、冰雹可能同时出现，具体时段——

强对流天气来京！雷暴、大风、冰雹可能同时出现，具体时段——

北青网-北京青年报

2026-05-09 14:03:21

5月9日央视乒乓直播调整，世乒赛决赛王楚钦迎终极考验

5月9日央视乒乓直播调整，世乒赛决赛王楚钦迎终极考验

老牛体育解说

2026-05-09 11:48:37

Fitbit Air发布：99美元无屏手环，库里戴了数周

Fitbit Air发布：99美元无屏手环，库里戴了数周

我是一个粉刷匠2

2026-05-08 01:07:03

茶行业最大的笑话：绕过茶商，用便宜的价格买到茶农的好茶！

茶行业最大的笑话：绕过茶商，用便宜的价格买到茶农的好茶！

普洱话江湖

2026-05-08 14:12:29

弘一法师悟道：人活着，其实就两件事，想通了，一辈子都顺了

弘一法师悟道：人活着，其实就两件事，想通了，一辈子都顺了

心理观察局

2026-05-09 09:10:05

官方：F1拟将明年内燃机功率提升50千瓦，ERS电能功率降低50千瓦

官方：F1拟将明年内燃机功率提升50千瓦，ERS电能功率降低50千瓦

懂球帝

2026-05-09 16:43:08

海参崴的街头：勿忘历史伤痛，更需守住家国立场

海参崴的街头：勿忘历史伤痛，更需守住家国立场

番外行

2026-05-09 08:23:51

于丹被北师大免职，跌落神坛后竟活成这样！人人都该警醒...

于丹被北师大免职，跌落神坛后竟活成这样！人人都该警醒...

华人星光

2024-11-07 13:39:41

砸22亿！OPPO在东莞建了一批“O字楼”

砸22亿！OPPO在东莞建了一批“O字楼”

GA环球建筑

2026-05-09 00:40:09

事业没了，婚也离了，封杀5年赵薇再次露面，原来她还有一条退路

事业没了，婚也离了，封杀5年赵薇再次露面，原来她还有一条退路

临云史策

2026-05-09 16:25:56

追踪人工智能动态

12597文章数 176461关注度

往期回顾全部

科技要闻

美国政府强力下场苹果英特尔达成代工协议

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

头条要闻

国防部证实:中方建造的"麒麟"级潜艇首艇交付巴基斯坦

体育要闻

成立128年后，这支升班马首夺顶级联赛冠军

娱乐要闻

50岁赵薇脸颊凹陷沧桑得认不出！

财经要闻

存储芯片上演造富潮

汽车要闻

轴距加长/智驾拉满阿维塔07L定位大五座SUV

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

教育

时尚

手机

军事航空

数码要闻

当贝2S Ultra：AI智养+干湿分离+全色域灯，养鱼一步到位

教育要闻

商学院地理位置怎么影响求职？雷丁与北部城市的差距，比你想的大

今年春夏最火的3个穿搭思路，普通人可以直接照搬吗？

手机要闻

红魔11S Pro官宣搭载第五代骁龙8至尊领先版

军事要闻

美伊突然再次交火伊朗外长：战争准备程度是1000%

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版