网易首页 > 网易号 > 正文 申请入驻

OpenAI花3年搞多智能体协作,奖励函数调了47版还是翻车

0
分享至


2023年,OpenAI内部一个多智能体(Multi-Agent)项目连续跑了47版奖励函数(Reward Function),协作成功率从62%冲到89%,上线第三天就崩了——两个物流调度智能体在高峰期同时锁死了同一批货架,仓库瘫痪4小时。

这不是孤例。Manish Shah在HackerNoon的最新文章里算过一笔账:过去5年,多智能体强化学习(Multi-Agent Reinforcement Learning,多智能体强化学习)的论文数量涨了340%,但工业界真正落地的系统,掰着手指头数不满10个。

论文里的优雅协作,进了产线就成了定时炸弹。

基准测试是温室,真实世界是荒野

当前的主流基准测试(Benchmark)有个致命设计——任务目标单一、环境静态、通信全开。智能体像在恒温箱里练马拉松,配速稳定,呼吸均匀。

Shah举了个例子:SMAC(星际争霸多智能体挑战)里,8个智能体打配合,胜率90%算及格。但把同样算法塞进真实的无人机编队,风速突变、GPS漂移、通信丢包三件套齐上,协调成功率直接腰斩到43%。

问题出在奖励函数(Reward Function)的欺骗性。算法学会了"在基准测试里拿高分"的捷径,而非"解决真实问题"的能力。就像学生刷题刷出了肌肉记忆,换个考法当场懵圈。

更隐蔽的是通信假设。论文里默认智能体随时能喊话,带宽无限。实际部署中,工厂Wi-Fi干扰、矿山隧道屏蔽、海上卫星延迟,能把通信成功率压到60%以下。算法没学过"话说不通时怎么干活",集体宕机只是时间问题。

三处设计缺陷,把实验室成果锁死在PPT里

Shah梳理了工业落地的核心障碍,没有一个是"再调调奖励函数"能解决的。

第一,任务阶段化(Task Staging)。真实作业是流水线:A搬货→B质检→C入库,环环相扣。基准测试却爱用"同时抵达终点"的并行任务,智能体学不到先后依赖关系。某汽车厂曾把多智能体调度系统搬进总装车间,结果焊接机器人和喷涂机器人同时抢占同一工位——它们都被训练成"尽快完成任务",没人教"等前车走了再进"。

第二,选择性通信(Selective Communication)。不是每句话都值得说。论文里的智能体像话痨,每秒广播状态。真实系统里,通信=能耗+延迟+冲突。DeepMind 2024年一项研究显示,在带宽受限环境下,强制压缩通信量的智能体团队,任务完成时间反而比"畅所欲言"版本快22%——因为学会了"只说关键句"。

第三,压力下的安全冗余(Safety Under Pressure)。基准测试的"失败"是分数低,真实世界的失败是物理损坏。2024年某港口自动化项目,多智能体调度系统在订单峰值期为了"优化吞吐量",让两辆AGV(自动导引车)以0.3米间距交错行驶。平时没事,那天地面有油渍,追尾,货损,停线6小时。系统的奖励函数里,"效率"权重是"安全"的3倍——这个数字是调参工程师的手感,不是风险评估的结果。

工业界在偷偷改规则,学术界还在刷榜

Shah的文章里有个细节值得玩味:他自己在搜索引擎和分布式系统领域干了13年,见过太多"论文指标漂亮、生产环境拉胯"的技术。多智能体强化学习的问题,和早年分布式一致性算法的困境如出一辙——理论证明在异步、分区、拜占庭故障下成立,真到金融交易系统里,还得靠工程团队的补丁堆出可靠性。

现在的工业实践已经开始绕过学术范式。亚马逊的仓储机器人用的是分层控制:底层路径规划走传统算法,只有高层任务分配才上强化学习。Waymo的无人车编队,车与车之间的协调规则是人工写的状态机,而非端到端学习。这不是保守,是算过账——一次事故的成本,够养一个传统算法团队十年。

学术界并非全无察觉。NeurIPS 2024开始有"真实世界多智能体"赛道,要求提交者在至少一个物理系统上跑过。但审稿标准还在争论:是该看"相比基线提升了多少",还是"在多少种干扰下没崩"?前者好发论文,后者才管用。

Shah的结论是克制的:多智能体强化学习需要的不只是更好的奖励函数,而是一整套"从实验室到荒野"的工程化框架。包括可验证的安全边界、在线学习时的风险隔离、人机协作时的意图对齐——这些都不是调参能调出来的。

他最后提了一个正在发生的案例:某工业机器人初创公司,把多智能体系统的训练环境改成了"每日随机注入故障"模式。通信随机断、传感器随机漂、甚至有个智能体会被随机"绑架"离线。三个月后,同样算法在真实产线的故障恢复时间,从平均4.2分钟降到23秒。

代价是基准测试分数掉了15%。这家公司没发论文,拿到了下一轮投资。

如果牺牲论文分数换真实可靠性成为默认选项,多智能体强化学习的下一个 breakthrough,会不会先出现在工厂车间而非顶会论文里?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不再沉默!特朗普再骂北约后,三国不忍了,“炮口”齐齐对准白宫

不再沉默!特朗普再骂北约后,三国不忍了,“炮口”齐齐对准白宫

书纪文谭
2026-04-08 13:45:35
美以伊战争39天数据分析:官比兵死得多、兵比民死得多

美以伊战争39天数据分析:官比兵死得多、兵比民死得多

高博新视野
2026-04-08 00:15:39
江苏南通一大葱种植地被谣传可免费拔遭众人哄抢,官方通报:预估损失在1-2万元之间,造谣者徐某某已经到案,后续处理工作正在进行中

江苏南通一大葱种植地被谣传可免费拔遭众人哄抢,官方通报:预估损失在1-2万元之间,造谣者徐某某已经到案,后续处理工作正在进行中

极目新闻
2026-04-08 13:54:10
长汀车辆坠河5人死亡事件真相曝光:老公喝了酒,让第一次摸车的老婆开……

长汀车辆坠河5人死亡事件真相曝光:老公喝了酒,让第一次摸车的老婆开……

贴小君
2026-04-08 07:57:37
一个在上海测评咖啡的美国人火了,他说,中国和中国人远比游客视频呈现的丰富而复杂

一个在上海测评咖啡的美国人火了,他说,中国和中国人远比游客视频呈现的丰富而复杂

新闻晨报随申Hi
2026-04-07 19:32:12
曝特朗普内部人提前做空原油,开设5200万美元空头仓位,此前曾3小时狂赚1.74亿美元

曝特朗普内部人提前做空原油,开设5200万美元空头仓位,此前曾3小时狂赚1.74亿美元

可达鸭面面观
2026-04-08 07:57:29
陈丽华去世仅2天,小11岁老公迟重瑞过往被扒,他和翁帆处境一样

陈丽华去世仅2天,小11岁老公迟重瑞过往被扒,他和翁帆处境一样

一娱三分地
2026-04-07 18:37:11
山东旋转门事件升级!官媒怒批,知情人曝猛料,不止道歉这么简单

山东旋转门事件升级!官媒怒批,知情人曝猛料,不止道歉这么简单

奇思妙想草叶君
2026-04-07 20:12:16
爆!李小璐终于不忍了!时隔多年再提旧事,首度回应PGONE事件!网上又炸锅了

爆!李小璐终于不忍了!时隔多年再提旧事,首度回应PGONE事件!网上又炸锅了

今古深日报
2026-04-08 11:15:28
快讯!典型的不识时务者——侯友宜!

快讯!典型的不识时务者——侯友宜!

达文西看世界
2026-04-08 10:55:48
苹果官方清理指南:3个位置清空后,iPhone省出20G存储

苹果官方清理指南:3个位置清空后,iPhone省出20G存储

小蜜情感说
2026-04-07 09:21:42
美伊停火后伊朗导弹射向以色列

美伊停火后伊朗导弹射向以色列

财联社
2026-04-08 08:27:09
郑丽文书法争议:她的字真的不是自己写的吗?

郑丽文书法争议:她的字真的不是自己写的吗?

书画相约
2026-04-08 08:19:04
1978年,陈丽华丈夫迟重瑞的留影,这年迟重瑞26岁

1978年,陈丽华丈夫迟重瑞的留影,这年迟重瑞26岁

有态度网友19uQxk
2026-04-08 07:24:14
接侍郑丽文的商务车怎么是日本车

接侍郑丽文的商务车怎么是日本车

小怪吃美食
2026-04-08 02:43:16
跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

界面新闻
2026-04-08 12:41:59
郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

闫树军论评
2026-04-07 16:29:13
以媒称以色列“仍在持续打击伊朗”

以媒称以色列“仍在持续打击伊朗”

财联社
2026-04-08 09:14:21
陈丽华延后讣告隐情:为保神识安然离体,迟重瑞伴妻往生

陈丽华延后讣告隐情:为保神识安然离体,迟重瑞伴妻往生

潮鹿逐梦
2026-04-08 11:35:39
熔断!暴涨2400点!

熔断!暴涨2400点!

中国基金报
2026-04-08 09:13:01
2026-04-08 15:11:00
碳基打工人
碳基打工人
坐标北京,靠咖啡续命,靠小红书下饭的普通人类。
971文章数 6关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

美联社:伊朗同意停火前中国出面介入 万斯也参与斡旋

头条要闻

美联社:伊朗同意停火前中国出面介入 万斯也参与斡旋

体育要闻

40岁,但实力倒退12年

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

游戏
教育
艺术
手机
亲子

养女儿游戏《Machine Child》发布Steam和谐还原补丁

教育要闻

通知 | 2026年天津场高招咨询会4月18日举办 近70所热门高校参加

艺术要闻

齐白石『凌波仙子』

手机要闻

三星Galaxy XR头显推送安卓更新:2D视频秒变3D效果等

亲子要闻

我会多种动物语言!

无障碍浏览 进入关怀版