网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

中小企业狂喜！AI智能体训练终于不翻车了，AEPO改变生活服务逻辑

2025-11-07 15:57:03　来源: 体育小柚

河南举报

0

分享至

中小企业狂喜！AI智能体训练终于不翻车了，AEPO改变生活服务逻辑

2025年的AI圈，智能体项目简直卷成了菜市场。

LangChain星标破10万，AutoGPT稳坐15万+宝座，CrewAI、AutoGen这些后起之秀也扎堆冲榜。

但热闹归热闹，咱们做开发的都懂一个痛：智能体这东西，想让它能干，就得让它多探索；可一撒手让它探索，又容易训练跑偏，最后竹篮打水一场空。

说句实在话，现在搞智能体开发，门槛高得吓人。

技术上得懂PyTorch框架、Transformer架构，没个三五个月学不会；开发周期动辄三六个月，光数据标注就得五万条，单卡训练要72小时；中小企业想落地，没五十万算力成本根本扛不住。

更头疼的是训练环节的“两难局”，不探索没潜力，一探索就失控。

就在大家愁眉不展的时候，中国人民大学高瓴人工智能学院和语言大模型团队联手扔出了王炸：AEPO算法。

这东西刚上线就拿下HuggingfacePaper日榜第二，GitHub星标一路飙到700+，直接把“探索与稳定”的矛盾给解决了，堪称智能体训练的“救星”。

你发现没，现在的智能体训练，就像驯兽师教猴子敬礼。

想让猴子学会新动作，得让它多试；可试多了，它要么一根筋只做一个动作，要么瞎折腾根本不着调。

智能体的“熵驱动探索”也是一个道理，鼓励它多尝试新的工具用法、推理路径，才能发掘潜力。

但问题恰恰出在“度”的把握上。

传统算法一搞熵驱动，智能体就容易“上头”。

在连续高熵的工具调用阶段，它会一条路走到黑，比如反复调用同一个工具，其他可能更优的路径连碰都不碰，这就是行业说的“高熵Rollout采样坍缩”。

研究数据显示，连续高熵工具调用的占比高达56.5%，有些轨迹甚至连续6次高熵调用，把宝贵的探索预算全浪费在一条路上了。

可要是怕失控管得太严，又会出反效果。

为了避免训练跑偏，算法会搞“无差别梯度裁剪”，不管是有用的探索还是瞎折腾，只要是高熵部分，一律一刀切裁剪掉。

但这些高熵token里，好多是智能体激发工具调用、主动反思的关键信号，相当于把智能体的“探索手脚”给砍了，这就是“高熵梯度裁剪”困境。

我跟你讲，这可不是小问题。

字节的DAPO、热门的GRPO这些算法，在有的模型上表现还行，换个基座就歇菜，甚至会出现“熵崩溃”，越练越笨，最后连基本任务都完不成。

开发者们天天跟过山车似的，训练初期效果挺好，后期突然崩盘，忙活几个月全白费。

说句实在话，AEPO能火出圈，核心就是精准拿捏了“平衡”二字。

它就像给智能体装了个“智能导航”，既让它敢闯新路，又不会偏离目的地。

针对前面说的两个痛点，它搞了两个“杀手锏”机制。

第一个机制是“动态熵平衡Rollout采样”，简单说就是给智能体的探索“智能分配零花钱”。

以前的算法都是凭经验分配资源，比如固定多少比例用于全局探索，多少用于分支探索。

AEPO不一样，它会先算一算问题和工具的“信息增益”，就像出门前先看地图，知道哪条路能挖到宝，再决定该多探索不同路径，还是聚焦深挖某条路。

更绝的是它的“连续高熵分支惩罚”。

如果智能体在一条路径上连续高熵探索，AEPO会主动降低它继续分支的概率，相当于家长给孩子定规矩：不能一直买同一种玩具，得多尝试不同的。

实验显示，以前ARPO只能分支2-3条轨迹，AEPO能把8条预算轨迹全利用起来，采样多样性从54直接冲到62，相当于从只逛54家店，变成了逛遍62家，选择面宽多了。

第二个机制是“熵平衡策略优化”，相当于给有用的探索“上保险”。

AEPO借鉴了GPPO的思路，给高熵token加了“梯度停止”保护，前向传播正常走，反向传播时，那些有价值的探索性token梯度不会被随便裁剪。

这就好比老师批改作业，不会因为学生的解题思路特别就打叉，而是保护这种创新思维，让智能体留住“探索记忆”。

从另一个角度看，AEPO还会给探索“分好坏”。

它引入“熵感知优势估计”，能分清哪些高熵探索是“有用功”，哪些是“瞎忙活”。

比如智能体调用工具查到关键信息，这种探索就多给奖励；要是反复调用工具却没结果，就减少奖励。

这样一来，智能体越练越会探索，而不是越练越乱，真正做到了“精准探索”。

AI算法好不好，最终还得看硬数据说话。

AEPO直接拉上了7种主流算法同台PK，覆盖计算推理、知识密集型推理、深度搜索三大类14个基准测试，结果堪称“碾压局”。

仅用1KRL训练样本，Qwen3-14B+AEPO在深度搜索任务上就炸了锅。

GAIA任务的Pass@5冲到65%，WebWalkerQA更是飙到70%，Humanity’sLastExam也拿下26%的好成绩。

对比字节的DAPO、热门的GPPO这些梯度裁剪算法，AEPO在GAIA任务上直接领先7%-10%；跟GRPO、Reinforce++这些传统算法比，HLE任务上也领先2.6%-3.4%，相当于考试多考了好几分，在AI领域这可是天壤之别。

更难得的是它的“稳定性”。

你知道开发者最怕啥吗？就是训练到一半突然崩盘。

但AEPO的熵损失全程保持高且稳定，准确率稳步上升，完美解决了ARPO等算法后期熵波动的问题。

而且它不挑模型，在Qwen、Llama3不同基座上表现都很能打，平均准确率比GRPO高5%，是实打实的“百搭算法”，不管换啥模型都能稳输出。

这样的硬实力，自然收获了社区疯抢。

上线没几天，AEPO就在X平台刷爆存在感，GitHub星标一路冲到700+，能在HuggingfacePaper日榜挤到第二，足以证明行业对它的认可。

有开发者评论说：“之前训练Web智能体，天天被熵坍缩搞心态，换了AEPO之后，训练稳得一批，效率直接翻倍”。

毕竟在开源生态爆发的今天，只有真正解决痛点的技术，才能站稳脚跟。

AI智能体的竞争，早就不是比谁的模型参数大，而是比谁的训练方法更接地气。

AEPO的厉害之处，不在于搞了多少花哨概念，而在于把“探索与稳定”这个核心矛盾解决得明明白白。

它用两个核心机制，既让智能体敢探索、会探索，又避免了训练失控，给通用智能体的可扩展训练指了条明路。

现在智能体开发门槛高、落地难，AEPO这种“低成本、高效率、稳输出”的算法，正好戳中了行业痛点。

未来不管是多模态智能体，还是复杂工具协作，熵平衡的思路只会越来越重要。

AI技术发展到今天，花哨的概念没用，能解决实际问题的才是真本事。

开源、硬实力，这才是AI技术该有的样子，也希望以后能多来点这样的实用型突破，让智能体真正走进各行各业，而不是只停留在实验室里！

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

3000亿港元AI巨头发力AI编程公开GLM-5技术细节

财联社 2026-02-24 13:54:40
0 跟贴 0
AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

机器之心Pro 2025-11-04 13:44:22
0 跟贴 0

春节AI暗战

钛媒体APP 2026-02-24 15:56:17
0 跟贴 0

DeepMind：智能体越多越乱，Agent天花板出现了？

机器之心Pro 2026-02-24 14:40:45
0 跟贴 0
AdaResoner实现Agentic Vision的主动「视觉工具思考」

机器之心Pro 2026-02-24 13:58:23
0 跟贴 0

大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0

多模态DeepResearch，成了！

机器之心Pro 2026-02-24 14:33:16
0 跟贴 0
字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

量子位 2026-02-24 15:21:52
0 跟贴 0

1000 倍效率神话，Taalas如何用 “模型即芯片” 暴打英伟达

钛媒体APP 2026-02-24 15:35:10
0 跟贴 0
全网围观：Meta超级智能安全总监，被OpenClaw删光了邮件

机器之心Pro 2026-02-24 14:20:40
0 跟贴 0
AI重构内容工业+海外变现验证，漫剧会是2026年最强风口吗？

华尔街见闻官方 2026-02-24 15:37:48
0 跟贴 0
热度第一、Tokens周调用破3T，MiniMax这个春节杀疯了

机器之心Pro 2026-02-23 18:46:36
1 跟贴 1
不但机械要厉害，控制的算法更厉害，网友瞬间不淡定了

姜江爱搞笑 2026-02-20 16:24:00
0 跟贴 0
象棋巧换三先制胜策略

精灵之舞z 2026-02-22 04:57:31
0 跟贴 0
我也想要这样的模型

橙子爱说剧 2026-02-23 17:43:50
1 跟贴 1
机构报告：中国企业调用大模型日均达37万亿tokens，阿里云千问占比第一

每日经济新闻 2026-02-24 11:26:10
1 跟贴 1
妈祖显灵大战资本权贵？不用等官方辟谣，逻辑自带真相！

猫女的小树屋 2026-02-24 10:07:53
1 跟贴 1
男子在五米墙上跳下来，技术零帧起手，一般人在上面站着都腿软！

逗趣冒险家 2026-02-23 16:27:22
1 跟贴 1
QwenLong-L1.5发布：让30B MoE模型长文本推理能力媲美GPT-5

机器之心Pro 2025-12-29 14:50:14
0 跟贴 0
300多只东北虎“轻断食”？景区：每天断食1个园，司机会带游客找可投喂区

封面新闻 2026-02-23 16:29:03
1660 跟贴 1660
四档清台策略解析

日月潭小青 2026-02-22 02:11:10
16 跟贴 16
摄影界来了个“天才”！江苏一网友把老虎拍得比山大，细看发现是“近大远小” 的视觉错位，网友：刷到你之前我简直在乱拍

极目新闻 2026-02-23 16:30:17
961 跟贴 961
哈尔滨冰雪大世界：正式闭园

大风新闻 2026-02-21 20:36:03
1869 跟贴 1869
独家｜近20天收入超去年全年！月之暗面成国内最快晋级十角兽公司

澎湃新闻 2026-02-23 16:24:27
421 跟贴 421
韩国要求俄使馆撤下宣传条幅，俄方：此为全体俄罗斯人所熟知，无意冒犯任何人

文汇报 2026-02-24 04:20:05
933 跟贴 933
别再做“冤大头”！西方用符号收割全球，中国制造让技术回归平民

李橑在北漂 2026-02-22 12:20:55
1 跟贴 1
学会这个接线技术，工资至少涨到8000元，很多电工都不会

凌雨肖大面包 2026-02-23 07:42:56
0 跟贴 0
养猫知识：猫为什么不能随便送人？

狐叫兽 2026-02-23 19:59:51
1 跟贴 1
美贸易代表威胁：和中欧日韩的协议依然算数都得履行

澎湃新闻 2026-02-23 22:58:16
164 跟贴 164
最高法：2025年以审判执行措施帮助中小企业收回账款19亿元

证券时报 2026-02-24 10:31:09
0 跟贴 0
网易云音乐，卡在算法和活人之间

钛媒体APP 2026-02-24 15:56:08
0 跟贴 0
你看日本木工是怎么接木棍的？不用榫卯技术也不用钉子，太先进了

小Q不是导盲犬 2026-02-24 07:58:03
0 跟贴 0
三菱造船株式会社等20家日本实体被列入管控名单

新华社 2026-02-24 10:04:20
60 跟贴 60
欧洲口风变了，称应给中国一个机会，让中国帮欧洲成为世界领导者

最新声音 2026-02-22 22:44:40
14 跟贴 14
莆田广播电视台通报游客采访口音受质疑

极目新闻 2026-02-23 17:05:14
82 跟贴 82
美股三大指数收盘均跌超1% IBM创2000年以来最大跌幅

每日经济新闻 2026-02-24 07:22:53
295 跟贴 295
养猫知识：猫的智商相当于几岁人类智商？

狐叫兽 2026-02-23 19:33:10
16 跟贴 16
小满出口成章，文思敏捷，有章法，有逻辑，有文采，有激情

小麒麒手工 2026-02-22 14:00:49
0 跟贴 0
中办印发《通知》在全党开展树立和践行正确政绩观学习教育

澎湃新闻 2026-02-23 20:28:07
95 跟贴 95
生肖财富季：2026春季最吸金的3大赢家，错过再等一年！

毅谈生肖 2026-02-24 15:23:42
0 跟贴 0

韩媒：金吉莉今日回国兰博基尼将送她回家韩网友：干脆把车送给她

韩媒：金吉莉今日回国兰博基尼将送她回家韩网友：干脆把车送给她

劲爆体坛

2026-02-24 09:06:03

不再希望理解？谷爱凌夺金后疏忽了地上的红旗，但没忘记披上国旗

不再希望理解？谷爱凌夺金后疏忽了地上的红旗，但没忘记披上国旗

真理是我亲戚

2026-02-22 19:51:59

为什么同一碗面，国外吃的是肉，我们吃的是调味料

为什么同一碗面，国外吃的是肉，我们吃的是调味料

富贵说

2026-02-22 20:52:00

1968年黄克诚被轮番审讯，偷偷给林彪写了一封信：请你考虑一下

1968年黄克诚被轮番审讯，偷偷给林彪写了一封信：请你考虑一下

雍亲王府

2026-02-24 12:25:05

收评|开门红！A股站上4100！节前布局电网CPO大涨！

收评|开门红！A股站上4100！节前布局电网CPO大涨！

龙行天下虎

2026-02-24 15:08:17

火葬或会被淘汰？新型丧葬方式开始实施，很多人却表示没办法接受

火葬或会被淘汰？新型丧葬方式开始实施，很多人却表示没办法接受

光辉与阴暗

2026-02-24 04:36:14

复工第一天，领导就将我辞退，当晚却接到十多个电话

复工第一天，领导就将我辞退，当晚却接到十多个电话

船长与船1

2026-02-24 12:22:21

1978年，谢振华奉命整顿16军时重点提拔一人，此人后来成了上将

1978年，谢振华奉命整顿16军时重点提拔一人，此人后来成了上将

历史龙元阁

2026-02-23 12:00:12

事实证明，吃完贾玲“红利”的张小斐，如今又回到了她的“怪圈”

事实证明，吃完贾玲“红利”的张小斐，如今又回到了她的“怪圈”

小熊侃史

2026-02-11 12:56:17

105岁无斑黑发！国医大师的长寿真经，每个人都能做！

105岁无斑黑发！国医大师的长寿真经，每个人都能做！

时光派健康抗衰

2026-02-21 16:00:04

53岁郑中基疑似新恋情，和异性现身游乐场开心畅玩

53岁郑中基疑似新恋情，和异性现身游乐场开心畅玩

素素娱乐

2026-02-24 07:30:47

回顾：四川一男子阴茎撕裂入院，9天后复查结果如何了

回顾：四川一男子阴茎撕裂入院，9天后复查结果如何了

新时代的两性情感

2026-02-23 18:01:52

晚饭七分饱被推翻了？医生调查：过了56岁，吃饭尽量要做到这5点

晚饭七分饱被推翻了？医生调查：过了56岁，吃饭尽量要做到这5点

蜉蝣说

2026-02-03 15:00:19

春节假期最后一天，台海闯入一位不速之客，解放军第一时间亮剑

春节假期最后一天，台海闯入一位不速之客，解放军第一时间亮剑

动漫里的童话

2026-02-23 10:03:48

春天，这5种蔬菜打死都不要买！菜贩子坦言：我都不敢吃，很多人却抢着买

春天，这5种蔬菜打死都不要买！菜贩子坦言：我都不敢吃，很多人却抢着买

阿莱美食汇

2026-02-24 14:28:32

皇马+赫伊森仍未正式道歉！若不会道歉，就去学学梅西巴萨切尔西

皇马+赫伊森仍未正式道歉！若不会道歉，就去学学梅西巴萨切尔西

念洲

2026-02-24 10:05:06

请3大中国友国高层赴日！高市早苗想玩一把大的，特朗普对华撂底

请3大中国友国高层赴日！高市早苗想玩一把大的，特朗普对华撂底

东极妙严

2026-02-24 15:25:54

张一鸣登顶，雷军排第十，2026富豪榜大洗牌：十年河东十年河西

张一鸣登顶，雷军排第十，2026富豪榜大洗牌：十年河东十年河西

大卫聊科技

2026-02-02 12:37:28

史上最乱伦成语“上蒸下报”

华人星光

2026-02-21 11:24:05

“吃别人的长寿面，是为他挡灾！”男孩吃光舅舅长寿面，家长被嘲

“吃别人的长寿面，是为他挡灾！”男孩吃光舅舅长寿面，家长被嘲

妍妍教育日记

2026-02-23 09:25:08

1786文章数 65关注度

往期回顾全部

科技要闻

AI颠覆发展最新牺牲品！IBM跳水重挫超13%

头条要闻

38岁中国商人在土耳其被害警方:遭同行女子引诱掳上车

头条要闻

38岁中国商人在土耳其被害警方:遭同行女子引诱掳上车

体育要闻

苏翊鸣总结米兰征程：我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组开机就离开剧组？

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配威兰达AIR版上市 13.78万元起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

教育

旅游

数码

公开课

手机要闻

OPPO陈希吐槽苹果最新旗舰iPhone 17 Pro，称完全开始不讲究了

教育要闻

如何评价高二英语难度？中考英语130，高二文章完全看不懂

旅游要闻

“家门口旅游”火爆，假期扩容要沿着一个方向继续努力下去｜封面评论

数码要闻

库克豪掷6000亿美元！Mac mini开启美国制造模式：苹果供应链要变天

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版