网易首页 > 网易号 > 正文 申请入驻

开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习+任意一张牌,往往就是王炸。

专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。

在实测中,MCP·RL更是在2/3的benchmark上达到或超过SOTA性能,效果直接拉满。

不套公式,在“做中学”,这就是专属RL的power!

MCP·RL的做中学

想明白MCP·RL怎么个“做中学”法,咱们有必要简单过一下传统MCP的流程:

举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流:

准备邮件数据、注册工具、写prompt规划执行顺序。

此外,你还得设置回退逻辑,以防中途崩掉。

而这只是一个发邮件的例子,功能一多,配置量指数级上升。

最关键的是——你得知道怎么拆任务、调工具、写逻辑。

换句话说,agent就是在做你给他出的完形填空。

而你,我的朋友,要填除了空以外的所有东西。

MCP·RL的提出就是为了解决这一问题。

你只需提供MCP Server地址,不用配置工具、不用写prompt、不用人工标注。

模型就能自己发现工具、自己设计任务、自己实战训练,边跑边学。

简单来说,MCP·RL的训练流程分四步:

  • 发现工具:自动连接MCP Server,获取所有可用工具和参数。
  • 生成任务:根据工具信息自己“脑补”出一批使用场景,作为训练任务(数据)。
  • 实战训练:通过跑任务直接从经验中学习,搭配RULER评估策略,调参优化。
  • 测试泛化:用新任务检验策略泛化性,让agent越用越顺手。

总结下来就是:任务场景是什么?AI找;工具怎么用?AI学;流程怎么拆?AI想;效果好不好?AI试。

一位网友精辟的点出了这一转变:

  • 我们曾借助MCP让AI调用工具,而现在是AI反过来利用MCP。

那么,它的效果如何呢?

正如我们开头提到的,MCP·RL在2/3的基准测试中达到SOTA。

而在具体的部署层面,MCP·RL无需标注数据,适用于任何Server,无需定制MCP接口,开箱即用。

One more thing

MCP·RL是科技公司OpenPipe基于强化学习的智能体训练系统(Agent Reinforcement Trainer,ART)的最新项目。

ART是一个开源强化学习框架,其核心思想是让LLM从经验中学习,从而提高agent的可靠性,ART可以将GRPO集成到任何Python应用中。

在此前的实测中,ART(Agent Reinforcement Trainer)对Qwen 2.5-14B进行强化训练,其在一项电子邮件检索任务中表现优于o3,实现了SOTA(state-of-the-art)。


[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗对美以发动第89波攻势,自杀式无人机突进北印度洋,逼退“林肯”号航母

伊朗对美以发动第89波攻势,自杀式无人机突进北印度洋,逼退“林肯”号航母

上观新闻
2026-04-02 04:24:13
云南美女马英婕肠癌去世,仅33岁,结婚仅5个月,喜欢喝酒吃烧烤

云南美女马英婕肠癌去世,仅33岁,结婚仅5个月,喜欢喝酒吃烧烤

180视角
2026-04-01 13:20:01
澳门世界杯:男单16强诞生!国乒2胜3负遭重创,日法德各3人晋级

澳门世界杯:男单16强诞生!国乒2胜3负遭重创,日法德各3人晋级

全言作品
2026-04-01 22:59:02
王传君夫妻疑街头争吵!齐溪全程皱眉咄咄逼人,膀大腰圆像是保镖

王传君夫妻疑街头争吵!齐溪全程皱眉咄咄逼人,膀大腰圆像是保镖

洲洲影视娱评
2026-04-01 19:20:27
张雪峰巨额遗产归属曝光?!11岁的她全部继承,二婚妻子刚登记不久

张雪峰巨额遗产归属曝光?!11岁的她全部继承,二婚妻子刚登记不久

新浪财经
2026-04-01 08:08:34
美股深夜狂飙,创去年5月以来最大单日涨幅,道指猛拉1100点!伊朗总统释放停战意愿

美股深夜狂飙,创去年5月以来最大单日涨幅,道指猛拉1100点!伊朗总统释放停战意愿

每日经济新闻
2026-04-01 17:49:34
张本智和全家逃离日本,两个集装箱搬空10年家,日乒彻底慌了

张本智和全家逃离日本,两个集装箱搬空10年家,日乒彻底慌了

乒乓助手
2026-04-02 00:07:09
利用战争吃霸王餐?餐厅老板哭诉:以色列同胞把警报当免单神器,一响就跑不回来

利用战争吃霸王餐?餐厅老板哭诉:以色列同胞把警报当免单神器,一响就跑不回来

不掉线电波
2026-04-01 12:17:30
这个新瓜,把人恶心吐了!

这个新瓜,把人恶心吐了!

八卦南风
2026-04-01 15:48:25
法国车手瓦伦丁:因年龄被欧美车队淘汰,和张雪联手拿冠军狠打脸

法国车手瓦伦丁:因年龄被欧美车队淘汰,和张雪联手拿冠军狠打脸

白面书誏
2026-04-01 16:23:50
被淘汰快10年突然翻红,销量暴涨20%!明星纷纷佩戴出镜,网友:我支持,便宜又好用

被淘汰快10年突然翻红,销量暴涨20%!明星纷纷佩戴出镜,网友:我支持,便宜又好用

都市快报橙柿互动
2026-04-01 22:21:20
郑丽文应邀访陆,24小时不到,一架美专机抵达岛内,特朗普摊牌了

郑丽文应邀访陆,24小时不到,一架美专机抵达岛内,特朗普摊牌了

爱吃醋的猫咪
2026-04-01 22:29:35
特朗普称中国富豪有56个美国孩子 吃瓜网友们:这位富豪是谁?

特朗普称中国富豪有56个美国孩子 吃瓜网友们:这位富豪是谁?

齐天候
2026-04-01 14:51:44
单依纯最该害怕的,不是李荣浩

单依纯最该害怕的,不是李荣浩

南风窗
2026-03-31 19:54:07
震惊!两名华人被撤销美国国籍,曾以“杰出人才”移民美国,面临遣返回国

震惊!两名华人被撤销美国国籍,曾以“杰出人才”移民美国,面临遣返回国

大洛杉矶LA
2026-04-01 07:10:00
40岁心梗幸存者已离职回村静养,医生回忆抢救过程并提醒:每个人都该保存一份自己健康状态下的心电图

40岁心梗幸存者已离职回村静养,医生回忆抢救过程并提醒:每个人都该保存一份自己健康状态下的心电图

极目新闻
2026-04-01 20:11:23
人民锐评:张雪“一个子儿也没有”引误读,政府托举是多元赋能

人民锐评:张雪“一个子儿也没有”引误读,政府托举是多元赋能

澎湃新闻
2026-04-01 20:58:04
风云突变!郑丽文访陆公布第二天,国民党内大佬态度纷纷转变

风云突变!郑丽文访陆公布第二天,国民党内大佬态度纷纷转变

阿离家居
2026-03-31 17:25:01
特朗普成为美国历史首位出席最高法院庭审的在任总统

特朗普成为美国历史首位出席最高法院庭审的在任总统

界面新闻
2026-04-01 22:32:13
虽被波黑淘汰,意大利仍有可能参加美加墨世界杯?

虽被波黑淘汰,意大利仍有可能参加美加墨世界杯?

仰卧撑FTUer
2026-04-01 21:23:02
2026-04-02 05:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12391文章数 176433关注度
往期回顾 全部

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

伊朗自杀无人机突进北印度洋 逼退“林肯”号航母

头条要闻

伊朗自杀无人机突进北印度洋 逼退“林肯”号航母

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

健康
房产
亲子
数码
手机

干细胞抗衰4大误区,90%的人都中招

房产要闻

产业、教育、地产…重大信号发出! 官方定调海口未来5年!

亲子要闻

女性易孕体质的5个特征,了解一下你中几条?

数码要闻

小米路由器BE7000获1.1.38版本升级,新增专属网络等功能

手机要闻

反向操作:有人给iPhone 17 Pro加回Lightning接口

无障碍浏览 进入关怀版