网易首页 > 网易号 > 正文 申请入驻

压稿近三月,ICLR 2026拒稿理由反成最大卖点?

0
分享至

编辑跟你讲个投稿圈的鬼故事。一篇发在ICLR 2026的论文,作者们公开了两个评审意见——两条都是“拒稿”。但你现在还能读到这篇论文的详细介绍。因为作者没有改弦更张,反而顺着评审指出的死穴往下挖,挖出了一套让整个对抗式模型学习范式翻盘的新方法。评审说“你这保守性根本控不住”,他们就专攻保守性控制;评审说“训练太容易崩”,他们就重构训练稳定性。最后录用的那一条评审,只写了一句话的判决:这篇论文把一个公认很难落地的方法论,做出了真正能跑的代码。

先交代背景。离线强化学习圈子一直在打一场无声的仗。无模型路线图省事,直接拿历史数据练策略,但样本效率始终是个心病。基于模型那派不甘心,于是多训一个环境动力学模型,让策略在上面撒欢跑,凭空造出更多训练轨迹。问题是那个环境模型就是个山寨货。一旦策略踩中模型预测偏得离谱、估值却极高的区域,它就会疯狂往那个方向优化。用专业术语叫模型利用问题,说人话就是:在假地图里找到了一座金山,真去挖的时候发现全是坑。


对抗式模型学习是专门治这毛病的。思路极其狠:不把模型当老实人,把它当成专门跟你对着干的对手。在一个不确定性集合里,死命找那个对策略最不利的动力学模型。你策略想偷鸡?先过最坏情况这一关。RAMBO是这条路线上的明星算法,论文挂了名字,圈内做离线强化学习的人基本都复现过。但所有复现的人都发现两个要命的问题。

第一个是保守程度完全不可控。RAMBO里有一个对抗权重系数,理论上应该是个对偶变量,需要跟着训练动态调整。实际用的时候,所有人都把它设成一个常数。在MuJoCo任务上通常设成0.01甚至更小。作者做了一组拆解实验:当你试着把它调到0.05,Q值开始被严重低估;调到0.1,梯度直接爆炸,训练崩了。这就意味着这个参数根本不是旋钮,而是引信。拨错零点零几,整个训练灰飞烟灭。更棘手的是第二个问题——模型梯度更新方式本身过于激进。RAMBO靠模型梯度主动去压低分布外区域的价值,这个机制天然倾向于把模型推向数值极不稳定的方向。

ROMI的做法是把整个思路翻过来。既然用模型梯度去压低价值容易崩,那就不压了。回到对抗式模型学习最原始的最大化最小值目标,从单步价值误差的角度,构造一个新的学习目标。核心诉求是:让当前模型预测的下一个状态的价值,尽可能贴近它局部邻域里的最小值。换成开发者能听懂的话就是——你山寨地图上标的那个点到底值不值钱,不要靠一个乱调的惩罚系数去拍脑袋决定。去看它周围一小圈邻居里最不值钱的那个点,那个才是你该信的保守估计值。

但这又引出另一个坑。局部邻域搜索需要访问动力学不确定集,而那个集合在训练过程中拿不到。ROMI的解法是用Wasserstein距离来度量动力学不确定性。通过一组严密的对偶形式转换,作者把原本依赖动力学不确定集的优化问题,映射到了显式的状态空间里。最后落地成一个可以直出的方案:在离线数据已有的样本附近加噪,构造出局部邻域。让模型去对齐那个邻域里的最小价值。这样一来,分布内区域学到的是“温和保守”,分布外的保守性则交给模型自己的泛化能力去处理。

结果在D4RL和NeoRL两个基准上拉了一圈实验。ROMI不光把同属对抗路线的RAMBO摁在地上摩擦,在大多数任务上甚至追平或者超过了无模型方法和基于模型加惩罚项的SOTA。在几个RAMBO之前死活跑不稳的环境里,ROMI的训练曲线平稳得像假的一样。投稿者在接受采访时说了一句挺实在的话:评审当初说我们的方法不可行,我们现在不光做出来了,还想通了这个方法为什么能行。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
忍不了了!亚运会马上开幕,日本签证暴涨5倍,针对谁还用说吗?

忍不了了!亚运会马上开幕,日本签证暴涨5倍,针对谁还用说吗?

梁蜱爱玩车
2026-06-27 03:37:06
阿斯报:尼科伤退引西班牙担忧

阿斯报:尼科伤退引西班牙担忧

懂球帝
2026-06-27 16:37:19
可控核聚变龙头十五强,谁值得长期关注?

可控核聚变龙头十五强,谁值得长期关注?

林子说事
2026-06-27 09:04:12
台湾回归新方案浮出水面:国民党如果同意,解放军或无需动武

台湾回归新方案浮出水面:国民党如果同意,解放军或无需动武

雅儿姐爱追剧
2026-06-25 06:56:59
张雪公布“东鹏特饮事件”原视频:吃瓜吃到自己头上了

张雪公布“东鹏特饮事件”原视频:吃瓜吃到自己头上了

观察者网
2026-06-27 21:57:50
男子阴茎癌晚期,夫妻生活一向干净,妻子:他就是改不了这个习惯

男子阴茎癌晚期,夫妻生活一向干净,妻子:他就是改不了这个习惯

健康之光
2026-06-08 17:03:57
中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

中央再发铁令!领导干部出现这15种情形 , 将不能再担任现职!

细说职场
2026-06-27 17:50:24
医生发现:每天早起后先排便的人,用不了半年,身体或迎来5改变

医生发现:每天早起后先排便的人,用不了半年,身体或迎来5改变

任医生聊健康
2026-06-08 20:00:48
再说一次,不要选错城市

再说一次,不要选错城市

国民经略
2026-06-26 11:45:54
出线分析丨伊朗命悬一线,韩国出局,亚洲仅两队能进32强

出线分析丨伊朗命悬一线,韩国出局,亚洲仅两队能进32强

宝哥精彩赛事
2026-06-27 13:54:29
第38届大众电影百花奖投票正火热进行

第38届大众电影百花奖投票正火热进行

中国电影报
2026-06-26 12:41:53
卧槽,马刺难了,雷霆补强2米27的文班克星

卧槽,马刺难了,雷霆补强2米27的文班克星

体育新角度
2026-06-27 17:58:10
油价大降“近7毛/升”,近一年大涨的油价,7月3日油价再次大跌了

油价大降“近7毛/升”,近一年大涨的油价,7月3日油价再次大跌了

油价早知道
2026-06-27 05:11:09
美照!小贾巴里当爸爸了!女友依旧美丽!

美照!小贾巴里当爸爸了!女友依旧美丽!

柚子说球
2026-06-26 20:00:07
佛得角主帅:阿根廷有世界最好球员梅西 能对阵阿根廷是一种荣幸

佛得角主帅:阿根廷有世界最好球员梅西 能对阵阿根廷是一种荣幸

云隐南山
2026-06-27 16:23:21
记者:米兰砸8000万欧签下拉莫斯,不仅离谱,更令人费解

记者:米兰砸8000万欧签下拉莫斯,不仅离谱,更令人费解

懂球帝
2026-06-27 21:10:35
江西省委原书记、中央统战部原副部长万绍芬逝世,享年96岁

江西省委原书记、中央统战部原副部长万绍芬逝世,享年96岁

澎湃新闻
2026-06-27 21:36:27
玩闹结束,日本订单归零,高端光刻胶不卖中国,高市推动战争经济

玩闹结束,日本订单归零,高端光刻胶不卖中国,高市推动战争经济

老灯爱野史
2026-06-27 16:15:26
“当时毫无察觉,血渗了7个多小时!”女子去山里徒步,下山时发现腿上一大片血迹!

“当时毫无察觉,血渗了7个多小时!”女子去山里徒步,下山时发现腿上一大片血迹!

环球网资讯
2026-06-27 07:47:15
演都不演了?奖杯没到手当场“甩脸子”的杨幂,印证了李少红的话

演都不演了?奖杯没到手当场“甩脸子”的杨幂,印证了李少红的话

岁月轻纱
2026-06-27 13:19:50
2026-06-28 00:04:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
253文章数 49关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

打击中东美军多个目标后 伊朗最高领袖军事顾问表态

头条要闻

打击中东美军多个目标后 伊朗最高领袖军事顾问表态

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

时尚
亲子
健康
本地
数码

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

亲子要闻

怎么样才能让自己快乐起来

“无糖汤圆”是否隐藏着健康陷阱?

本地新闻

世界杯球迷节:比球赛更好玩的派对

数码要闻

台积电订单排名出炉:英伟达稳居榜首、AMD紧随其后

无障碍浏览 进入关怀版