网易首页 > 网易号 > 正文 申请入驻

开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习+任意一张牌,往往就是王炸。

专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。

在实测中,MCP·RL更是在2/3的benchmark上达到或超过SOTA性能,效果直接拉满。

不套公式,在“做中学”,这就是专属RL的power!

MCP·RL的做中学

想明白MCP·RL怎么个“做中学”法,咱们有必要简单过一下传统MCP的流程:

举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流:

准备邮件数据、注册工具、写prompt规划执行顺序。

此外,你还得设置回退逻辑,以防中途崩掉。

而这只是一个发邮件的例子,功能一多,配置量指数级上升。

最关键的是——你得知道怎么拆任务、调工具、写逻辑。

换句话说,agent就是在做你给他出的完形填空。

而你,我的朋友,要填除了空以外的所有东西。

MCP·RL的提出就是为了解决这一问题。

你只需提供MCP Server地址,不用配置工具、不用写prompt、不用人工标注。

模型就能自己发现工具、自己设计任务、自己实战训练,边跑边学。

简单来说,MCP·RL的训练流程分四步:

  • 发现工具:自动连接MCP Server,获取所有可用工具和参数。
  • 生成任务:根据工具信息自己“脑补”出一批使用场景,作为训练任务(数据)。
  • 实战训练:通过跑任务直接从经验中学习,搭配RULER评估策略,调参优化。
  • 测试泛化:用新任务检验策略泛化性,让agent越用越顺手。

总结下来就是:任务场景是什么?AI找;工具怎么用?AI学;流程怎么拆?AI想;效果好不好?AI试。

一位网友精辟的点出了这一转变:

  • 我们曾借助MCP让AI调用工具,而现在是AI反过来利用MCP。

那么,它的效果如何呢?

正如我们开头提到的,MCP·RL在2/3的基准测试中达到SOTA。

而在具体的部署层面,MCP·RL无需标注数据,适用于任何Server,无需定制MCP接口,开箱即用。

One more thing

MCP·RL是科技公司OpenPipe基于强化学习的智能体训练系统(Agent Reinforcement Trainer,ART)的最新项目。

ART是一个开源强化学习框架,其核心思想是让LLM从经验中学习,从而提高agent的可靠性,ART可以将GRPO集成到任何Python应用中。

在此前的实测中,ART(Agent Reinforcement Trainer)对Qwen 2.5-14B进行强化训练,其在一项电子邮件检索任务中表现优于o3,实现了SOTA(state-of-the-art)。


[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海警方查处案件280余起 收缴违法烟花爆竹1.2万余箱

上海警方查处案件280余起 收缴违法烟花爆竹1.2万余箱

看看新闻Knews
2026-02-19 21:52:06
这就是命啊!哥伦比亚一家4口出去玩,中途儿子内急下车如厕

这就是命啊!哥伦比亚一家4口出去玩,中途儿子内急下车如厕

忠于法纪
2025-12-28 20:35:41
正式公布!洛杉矶奥运代表名额已定,国乒压力巨大,莎头挑战重重

正式公布!洛杉矶奥运代表名额已定,国乒压力巨大,莎头挑战重重

一盅情怀
2026-02-20 14:50:37
别傻了!过年没人主动联系你,不是你人缘差,而是这几个扎心真相

别傻了!过年没人主动联系你,不是你人缘差,而是这几个扎心真相

小影的娱乐
2026-02-20 18:13:17
2月19日这场会,烟花爆竹整治动真格了,基层干部要睡不好觉了!

2月19日这场会,烟花爆竹整治动真格了,基层干部要睡不好觉了!

王二哥老搞笑
2026-02-19 21:59:53
海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环彻底消失?49.5万留学生涌回国,残酷真相:企业只认这个

南权先生
2025-12-23 16:16:33
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
泽连斯基:乌克兰愿为和平作出妥协,但不会接受损害主权的条件

泽连斯基:乌克兰愿为和平作出妥协,但不会接受损害主权的条件

界面新闻
2026-02-20 18:49:15
辽宁一男子不愿早起11点前赶到女友家拜年后续,疑似已分手

辽宁一男子不愿早起11点前赶到女友家拜年后续,疑似已分手

九方鱼论
2026-02-20 14:11:16
四不像:皇家马德里中场大将在队内的角色越来越受到质疑

四不像:皇家马德里中场大将在队内的角色越来越受到质疑

本泽体育
2026-02-20 07:06:55
全球首销!新机官宣:3月5日,正式发售上市!

全球首销!新机官宣:3月5日,正式发售上市!

科技堡垒
2026-02-20 11:29:31
斯诺克战报!赵心童第3局颗粒无收,墨菲2次上手零封,2-1逆转!

斯诺克战报!赵心童第3局颗粒无收,墨菲2次上手零封,2-1逆转!

刘姚尧的文字城堡
2026-02-20 22:16:52
揭秘百万存款家庭:你绝对想不到的生活标准!

揭秘百万存款家庭:你绝对想不到的生活标准!

特约前排观众
2026-01-23 00:15:05
为何国民党能在台湾成功推行土改?不参加的地主,一律算作共产党

为何国民党能在台湾成功推行土改?不参加的地主,一律算作共产党

顾史
2026-02-19 10:30:56
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
春晚主持人改口了!“总台”叫了五年,还是旧称听着霸气

春晚主持人改口了!“总台”叫了五年,还是旧称听着霸气

喜欢历史的阿繁
2026-02-19 05:20:05
伊朗局势突然升级,石油股大爆发!春节后首个交易日,两大AI龙头市值突破3000亿港元,香港财政司司长:港股已具备“骏马”特质

伊朗局势突然升级,石油股大爆发!春节后首个交易日,两大AI龙头市值突破3000亿港元,香港财政司司长:港股已具备“骏马”特质

每日经济新闻
2026-02-20 17:17:38
铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

铁了心对付中国?暴跌58%,俄罗斯大幅加税,中国汽车栽得太冤了

爱吃醋的猫咪
2026-02-01 19:36:46
派出所打电话骗我过去,到了后却给我刑事拘留了,可不可以告他?

派出所打电话骗我过去,到了后却给我刑事拘留了,可不可以告他?

福建平子
2026-01-31 10:16:28
985女硕士被活活饿死,父母:不会给她收尸,就让她死在日本吧!

985女硕士被活活饿死,父母:不会给她收尸,就让她死在日本吧!

来科点谱
2026-02-18 07:11:56
2026-02-21 03:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12186文章数 176389关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

头条要闻

贝加尔湖遇难者遗体已被发现 涉事司机系私下接单

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
数码
健康
艺术
旅游

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

数码要闻

AMD "Zen 6" MSDT主流桌面处理器被曝最快2027年推出

转头就晕的耳石症,能开车上班吗?

艺术要闻

你绝对不想错过的石涛五十幅国画作品!

旅游要闻

游人如织,新天地解锁马年最热闹的新春模样

无障碍浏览 进入关怀版