网易首页 > 网易号 > 正文 申请入驻

AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理

0
分享至

编译 | Tina

很多人都觉得 2025 年会是“AI 智能体元年”,也就是基于 OpenAI、Anthropic、Google 和 DeepSeek 等机构提供的大语言模型,打造专注特定任务的智能体系统。

但是,最近在社交平台 X 上有个调查显示,现在大部分 Agent 都在“玩票”阶段,还没真正走出实验室,普遍滞留在“企业试点”的状态中。

不过,李飞飞所在的一支团队或许即将带来改变:他们与西北大学、微软、斯坦福大学和华盛顿大学的研究人员合作,最近推出了一套名为 RAGEN 的新系统。这个系统旨在提升人工智能在真实世界,尤其是在企业应用中的稳定性和可靠性。

据悉,该项目由前 DeepSeek 研究员、现就读于西北大学计算机科学博士的王子涵主导。王子涵研究聚焦于大语言模型(Foundation Models)的自主性、效率以及长文本理解。此前,王子涵曾在 DeepSeek 担任研究员,并参与了 DeepSeek-V2 等重要项目。

推理智能体训练框架已开源

与解题或代码生成等静态任务不同,RAGEN 聚焦在多轮交互场景中训练智能体,要求它们能在不确定性中进行推理、记忆历史对话并灵活应对变化。

RAGEN 构建于一个名为 StarPO(State-Thinking-Actions-Reward Policy Optimization,即“状态 - 思维 - 动作 - 奖励 策略优化”)的定制强化学习框架之上,核心思想是让 LLM 通过“经验”学习而非“死记硬背”。系统重点在于训练智能体完成完整的决策路径,而不是仅仅优化某一次回答。

StarPO 包括两个交替进行的阶段:在 rollout 阶段,LLM 基于推理生成完整的交互序列;而在 update 阶段,模型根据归一化后的累计奖励进行参数更新。相比传统的策略优化方法,这种设计让训练过程更加稳定,学习结果也更易于解释。

研究团队在实验中使用了阿里巴巴开源的 Qwen 系列模型(包括 Qwen 1.5 和 Qwen 2.5)作为基础语言模型进行微调。这些模型具有开放权重、指令执行能力强等优点,有助于确保实验结果的可复现性,并支持在符号任务上的一致性对比。

这一系统为有志于开发更具“思考力、规划能力和自我进化能力”的 AI 智能体提供了坚实基础。RAGEN 不只是关注任务是否完成,更重视模型是否真正经历了学习与推理过程。随着 AI 技术朝着更高程度的自主性发展,像 RAGEN 这样的项目正在帮助我们理解:如何训练出不仅依赖数据、还能从自身行为后果中学习的模型。

RAGEN 及其配套的 StarPO 和 StarPO-S 框架现已开源,项目托管于 GitHub 上,采用的是 MIT 协议。


GitHub 地址:
https://github.com/RAGEN-AI/RAGEN

Agent 强化学习训练如何才能不崩溃?

王子涵在一条广泛传播的 X 贴文中指出了训练中的核心难题:为什么 RL(强化学习)训练总是会“崩”?

团队发现,训练初期的智能体通常能生成结构清晰、逻辑合理的回答,但随着训练推进,强化学习系统更倾向于奖励“捷径式”回答,最终导致模型反复输出相似内容、推理能力逐渐退化。这种现象被他们称为“回声陷阱(Echo Trap)”。

这种退化通常由反馈回路驱动:某些回答在早期获得高奖励,从而被模型频繁复制使用,抑制了探索其他可能性的动机。

但这种问题有明确的迹象可循:比如奖励波动剧烈、梯度异常增大、推理痕迹逐渐消失等。

为了在可控环境中系统性研究智能体的行为,RAGEN 设计了三个符号化测试环境,用于评估智能体的决策能力:

  • Bandit(老虎机):一个单轮的随机任务,用于测试智能体在不确定条件下的符号化风险 - 收益推理能力;

  • Sokoban(推箱子):一个多轮、确定性的益智任务,涉及不可逆决策,考验智能体的规划能力;

  • Frozen Lake(冰湖):一个具有随机性的多轮任务,要求智能体具备适应性和前瞻性思考能力。

这些测试环境的共同特点是:尽量剥离现实世界中的先验知识干扰,让智能体仅依赖训练中学到的策略进行决策。

以 Bandit 为例,智能体会被告知“龙”和“凤凰”代表不同的奖励分布,但不会直接获得概率信息。它必须进行类比式推理,比如把“龙”理解为“力量”、将“凤凰”理解为“希望”,并据此预测潜在结果。这类设定鼓励模型生成可解释、具备抽象类比能力的推理路径。

为解决训练过程中模型容易“崩溃”的问题,研究团队在原有 StarPO 框架的基础上提出了增强版本StarPO-S,引入了三项关键机制来提升训练稳定性:

  1. 基于不确定性的 rollout 筛选:优先选用那些智能体对结果感到“犹豫”的交互序列,提升训练数据的有效性;

  2. 移除 KL 惩罚项:放宽模型对初始策略的约束,让它更自由地探索新的行为方式;

  3. 非对称 PPO 剪裁:对高奖励路径加大学习力度,相对降低对低奖励路径的关注,从而提升整体学习效率。

这些策略显著减缓甚至避免了训练过程中的崩溃问题,同时在所有三个任务环境中均带来了更好的表现。正如王子涵所说:“StarPO-S 在三个任务上都表现不错,不仅解决了训练崩溃问题,奖励水平也更高。”

落地企业应用,

还有哪些现实难题?

强化学习的效果不仅依赖模型本身的结构,还与智能体在训练过程中所生成的数据质量密切相关。团队总结了三个对训练效果影响最大的关键因素:

  • 任务多样性:让模型接触更多样的起始情境,有助于提升泛化能力;

  • 交互粒度:支持每轮多个动作,能够带来更细致的计划和更丰富的策略;

  • rollout 新鲜度:确保训练数据与当前模型策略保持一致,避免旧策略“过时”的学习信号干扰训练。

这三个维度共同提升了训练过程的稳定性与实用性。

尽管显式推理在 Bandit 这类简单的单轮任务中表现出色,但在多轮任务的训练中,推理能力往往会随着训练进度逐渐减弱甚至消失。即使采用了结构化提示词或 等显式标记,推理过程仍可能无法维持,除非模型在训练中直接因推理质量获得奖励。

这暴露出当前奖励机制的一大短板:它更多聚焦于“结果对不对”,而忽视了“过程好不好”。

为此,团队尝试通过格式惩罚等方式,引导模型生成结构更清晰的推理过程,但他们也指出,要真正解决这个问题,仍需进一步优化奖励设计逻辑。

尽管 RAGEN 论文提出了清晰的技术方向,但要真正将其应用到真实的企业环境中,仍然存在不少实际的挑战。例如,RAGEN 目前主要处理的是高度抽象的符号类问题。那么,它的方法是否能顺利应用到像发票处理、客户支持这类真实的业务流程中呢?企业是否需要为每个具体的应用场景重新设计任务环境和奖励机制?

另一个核心问题是可扩展性。即便引入了 StarPO-S 等稳定性优化机制,论文仍坦承:当任务长度足够长时,模型训练最终仍可能崩溃。这不禁让人反思,是否存在某种理论或工程路径,能让智能体在开放式、持续演进的任务中始终维持推理能力?

RAGEN 的意义,实际远不止于技术上的突破。它不仅是对强化学习技术的一次重要尝试,更标志着我们向“具备自主推理能力的智能体”的目标迈进了一步。虽然现在还不能确定它是否会成为未来企业人工智能技术的重要组成部分,但它在智能体学习机制上的新颖见解,已经悄然改变着我们对大型模型训练边界的理解和想象。

https://x.com/wzihanw/status/1915052871474712858

https://venturebeat.com/ai/former-deepseeker-and-collaborators-release-new-method-for-training-reliable-ai-agents-ragen/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
维多利亚「臭脸瞪媳妇」影片疯传! 她杀人眼神超恐怖:气氛尴尬

维多利亚「臭脸瞪媳妇」影片疯传! 她杀人眼神超恐怖:气氛尴尬

ETtoday星光云
2026-01-21 13:30:16
日本!大崩盘开始了!

日本!大崩盘开始了!

大嘴说天下
2026-01-22 04:30:03
马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

现代小青青慕慕
2026-01-22 00:25:08
珍妮回应ESPN爆料:湖人不感激詹姆斯付出绝非事实 对他极度不公

珍妮回应ESPN爆料:湖人不感激詹姆斯付出绝非事实 对他极度不公

罗说NBA
2026-01-22 06:59:25
一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

一支笔锁死中国14亿人命运:为何90年过去了,这条斜线谁也动不了

半解智士
2026-01-20 18:03:00
嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

嫣然医院房东身份遭深扒:疑是医美机构老板,不卖楼或想重操旧业

古希腊掌管月桂的神
2026-01-21 15:21:20
事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

李橑在北漂
2026-01-21 22:26:50
吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

吴石遗孀王碧奎 1950 年夫牺牲,台颠沛 30 年拒返赴美吐隐情

磊子讲史
2026-01-06 11:48:34
猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

小徐讲八卦
2026-01-21 08:19:44
伊朗官媒:3117人在近期骚乱事件中死亡

伊朗官媒:3117人在近期骚乱事件中死亡

澎湃新闻
2026-01-22 02:39:03
安徽省山潜山市公安局黄柏派出所原教导员吴长锋被“双开”

安徽省山潜山市公安局黄柏派出所原教导员吴长锋被“双开”

潇湘晨报
2026-01-21 22:00:14
女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

女子违停竖中指挑衅被撞:正脸被扒已社死,内情流出,司机疑发声

社会日日鲜
2026-01-22 00:48:44
难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

火山诗话
2026-01-21 06:07:03
石楼已有多人接个电话钱就被转走

石楼已有多人接个电话钱就被转走

黄河新闻网吕梁频道
2026-01-21 09:39:02
中国驻吉达总领馆:U23亚洲杯决赛“中国人免票”为不实信息

中国驻吉达总领馆:U23亚洲杯决赛“中国人免票”为不实信息

新华社
2026-01-21 23:39:10
欧盟拟强制淘汰“高风险供应商”设备 华为回应

欧盟拟强制淘汰“高风险供应商”设备 华为回应

21世纪经济报道
2026-01-22 10:18:36
打虎!张建龙被查

打虎!张建龙被查

新京报政事儿
2026-01-22 09:10:16
内卷终局见真章:丰田178万+逆势增长,彰显长期主义价值

内卷终局见真章:丰田178万+逆势增长,彰显长期主义价值

功夫AUTO
2026-01-20 21:52:35
中方重申:日本根本没有资格要求“入常”

中方重申:日本根本没有资格要求“入常”

海外网
2026-01-22 07:06:04
人民日报再发声:回看罗永浩、贾国龙之争,网络平台有不嫌事大、甚至放大不良舆论的“流量心态”;要守住底线,决不能触碰红线!

人民日报再发声:回看罗永浩、贾国龙之争,网络平台有不嫌事大、甚至放大不良舆论的“流量心态”;要守住底线,决不能触碰红线!

大象新闻
2026-01-21 19:45:04
2026-01-22 11:03:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1259文章数 110关注度
往期回顾 全部

科技要闻

日系彩电时代“彻底落幕”

头条要闻

张建龙被查 曾回应"三北防护林挡风是否导致雾霾加重"

头条要闻

张建龙被查 曾回应"三北防护林挡风是否导致雾霾加重"

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

股东资格确权存纠纷 前总裁状告申通快递

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

亲子
艺术
健康
旅游
军事航空

亲子要闻

我没挨收拾给他气够呛

艺术要闻

一场雪,飘进了唐诗

打工人年终总结!健康通关=赢麻了

旅游要闻

日本观光局:2025年12月中国内地访日游客数量同比大降

军事要闻

特朗普:对美国的真正威胁是联合国和北约

无障碍浏览 进入关怀版