网易首页 > 网易号 > 正文 申请入驻

开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习+任意一张牌,往往就是王炸。

专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。

在实测中,MCP·RL更是在2/3的benchmark上达到或超过SOTA性能,效果直接拉满。



不套公式,在“做中学”,这就是专属RL的power!



MCP·RL的做中学

想明白MCP·RL怎么个“做中学”法,咱们有必要简单过一下传统MCP的流程:

举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流:

准备邮件数据、注册工具、写prompt规划执行顺序。

此外,你还得设置回退逻辑,以防中途崩掉。

而这只是一个发邮件的例子,功能一多,配置量指数级上升。

最关键的是——你得知道怎么拆任务、调工具、写逻辑。

换句话说,agent就是在做你给他出的完形填空。

而你,我的朋友,要填除了空以外的所有东西。

MCP·RL的提出就是为了解决这一问题。

你只需提供MCP Server地址,不用配置工具、不用写prompt、不用人工标注。

模型就能自己发现工具、自己设计任务、自己实战训练,边跑边学。



简单来说,MCP·RL的训练流程分四步:

  • 发现工具:自动连接MCP Server,获取所有可用工具和参数。
  • 生成任务:根据工具信息自己“脑补”出一批使用场景,作为训练任务(数据)。
  • 实战训练:通过跑任务直接从经验中学习,搭配RULER评估策略,调参优化。
  • 测试泛化:用新任务检验策略泛化性,让agent越用越顺手。

总结下来就是:任务场景是什么?AI找;工具怎么用?AI学;流程怎么拆?AI想;效果好不好?AI试。

一位网友精辟的点出了这一转变:

  • 我们曾借助MCP让AI调用工具,而现在是AI反过来利用MCP。



那么,它的效果如何呢?

正如我们开头提到的,MCP·RL在2/3的基准测试中达到SOTA。



而在具体的部署层面,MCP·RL无需标注数据,适用于任何Server,无需定制MCP接口,开箱即用。

One more thing

MCP·RL是科技公司OpenPipe基于强化学习的智能体训练系统(Agent Reinforcement Trainer,ART)的最新项目。

ART是一个开源强化学习框架,其核心思想是让LLM从经验中学习,从而提高agent的可靠性,ART可以将GRPO集成到任何Python应用中。

在此前的实测中,ART(Agent Reinforcement Trainer)对Qwen 2.5-14B进行强化训练,其在一项电子邮件检索任务中表现优于o3,实现了SOTA(state-of-the-art)。




[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15减2!中国投弃权票,安理会出现罕见一幕,美方向全球宣布大事

15减2!中国投弃权票,安理会出现罕见一幕,美方向全球宣布大事

知鉴明史
2025-11-18 23:20:42
正接受调查!首席科学家被曝只有高中学历,院士头衔造假,30 年履历全靠编

正接受调查!首席科学家被曝只有高中学历,院士头衔造假,30 年履历全靠编

生物学霸
2025-11-18 17:22:15
4连鞭!斯诺克沙特金球赛战报:丁俊晖横扫晋级,墨菲轰2杆破百

4连鞭!斯诺克沙特金球赛战报:丁俊晖横扫晋级,墨菲轰2杆破百

郝小小看体育
2025-11-20 01:54:57
广东34分大胜上海!徐昕12分钟砍11+5,实力打脸杜锋,黄明依12分

广东34分大胜上海!徐昕12分钟砍11+5,实力打脸杜锋,黄明依12分

多特体育说
2025-11-19 22:11:35
震惊!华南某知名设计院“跨界”拍微短剧,上半年狂揽1.09亿元

震惊!华南某知名设计院“跨界”拍微短剧,上半年狂揽1.09亿元

火山诗话
2025-11-19 17:48:33
网友墨尔本偶遇昆凌,本人真的好美,脸好小好精致,现实更好看

网友墨尔本偶遇昆凌,本人真的好美,脸好小好精致,现实更好看

东方不败然多多
2025-11-20 00:04:28
山西一司机称拉煤时遇山体落石致伤“没人管” ,镇政府:将调解

山西一司机称拉煤时遇山体落石致伤“没人管” ,镇政府:将调解

新京报
2025-11-18 23:38:00
料斗钢丝绳断裂砸亡工人,深圳宝安航城宗地项目7·13事故报告公布

料斗钢丝绳断裂砸亡工人,深圳宝安航城宗地项目7·13事故报告公布

中国基建报
2025-11-19 18:53:47
第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

第一个力挺中国的战友出现!只要日本敢出兵,立马使出一大绝招

南宫一二
2025-11-19 10:43:00
俄罗斯专家:日本为何敢一直挑衅中国,就是对日本太客气了

俄罗斯专家:日本为何敢一直挑衅中国,就是对日本太客气了

文史旺旺旺
2025-11-18 20:18:12
唐嫣罗晋被曝离婚?两人已无直接商业关联

唐嫣罗晋被曝离婚?两人已无直接商业关联

深圳晚报
2025-11-18 23:05:56
如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

如果高市早苗坚决不撤回其涉台言论,我们接下来又该怎么办呢?

翻开历史和现实
2025-11-19 23:19:34
不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

不要低估日本先发制人击沉福建舰的威胁,应该学习美苏对日做法!

环球策论
2025-11-19 00:10:39
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
既有颜值又有实力!邵雨琪技压群芳终夺金!

既有颜值又有实力!邵雨琪技压群芳终夺金!

湖报体育
2025-11-19 23:56:14
10战9败,球队老大摆烂,球队基石又选错人!你们还是趁早重建吧

10战9败,球队老大摆烂,球队基石又选错人!你们还是趁早重建吧

老梁体育漫谈
2025-11-20 00:30:12
表妹结婚硬借我82万爱马仕,结束说丢了,我安慰说是假的,她却慌了

表妹结婚硬借我82万爱马仕,结束说丢了,我安慰说是假的,她却慌了

温情邮局
2025-11-18 14:17:34
里子面子都丢了!森林北晒出体检结果,彻底撕碎了汪峰仅剩的体面

里子面子都丢了!森林北晒出体检结果,彻底撕碎了汪峰仅剩的体面

大眼妹妹
2025-11-19 18:10:26
美股收盘:三大指数集体收涨 英伟达财报再超预期

美股收盘:三大指数集体收涨 英伟达财报再超预期

财联社
2025-11-20 05:36:07
Gemini 3中文测评结果发布:首超GPT-5 全球第二

Gemini 3中文测评结果发布:首超GPT-5 全球第二

快科技
2025-11-19 22:08:03
2025-11-20 07:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11708文章数 176335关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

家居
数码
手机
公开课
军事航空

家居要闻

水岸美学 书香人文生活

数码要闻

猫头鹰黑化版散热器风扇来袭

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版