网易首页 > 网易号 > 正文 申请入驻

开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习+任意一张牌,往往就是王炸。

专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。

在实测中,MCP·RL更是在2/3的benchmark上达到或超过SOTA性能,效果直接拉满。



不套公式,在“做中学”,这就是专属RL的power!



MCP·RL的做中学

想明白MCP·RL怎么个“做中学”法,咱们有必要简单过一下传统MCP的流程:

举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流:

准备邮件数据、注册工具、写prompt规划执行顺序。

此外,你还得设置回退逻辑,以防中途崩掉。

而这只是一个发邮件的例子,功能一多,配置量指数级上升。

最关键的是——你得知道怎么拆任务、调工具、写逻辑。

换句话说,agent就是在做你给他出的完形填空。

而你,我的朋友,要填除了空以外的所有东西。

MCP·RL的提出就是为了解决这一问题。

你只需提供MCP Server地址,不用配置工具、不用写prompt、不用人工标注。

模型就能自己发现工具、自己设计任务、自己实战训练,边跑边学。



简单来说,MCP·RL的训练流程分四步:

  • 发现工具:自动连接MCP Server,获取所有可用工具和参数。
  • 生成任务:根据工具信息自己“脑补”出一批使用场景,作为训练任务(数据)。
  • 实战训练:通过跑任务直接从经验中学习,搭配RULER评估策略,调参优化。
  • 测试泛化:用新任务检验策略泛化性,让agent越用越顺手。

总结下来就是:任务场景是什么?AI找;工具怎么用?AI学;流程怎么拆?AI想;效果好不好?AI试。

一位网友精辟的点出了这一转变:

  • 我们曾借助MCP让AI调用工具,而现在是AI反过来利用MCP。



那么,它的效果如何呢?

正如我们开头提到的,MCP·RL在2/3的基准测试中达到SOTA。



而在具体的部署层面,MCP·RL无需标注数据,适用于任何Server,无需定制MCP接口,开箱即用。

One more thing

MCP·RL是科技公司OpenPipe基于强化学习的智能体训练系统(Agent Reinforcement Trainer,ART)的最新项目。

ART是一个开源强化学习框架,其核心思想是让LLM从经验中学习,从而提高agent的可靠性,ART可以将GRPO集成到任何Python应用中。

在此前的实测中,ART(Agent Reinforcement Trainer)对Qwen 2.5-14B进行强化训练,其在一项电子邮件检索任务中表现优于o3,实现了SOTA(state-of-the-art)。




[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
35岁高颜值少妇遭外卖小伙疯狂追求,画面曝光,女子删视频遭举报

35岁高颜值少妇遭外卖小伙疯狂追求,画面曝光,女子删视频遭举报

老猫观点
2026-01-02 09:26:52
湖南女生游黄山失联,百米悬崖下发现遗体,景区被判担责15%,家属上诉:护栏存缺陷

湖南女生游黄山失联,百米悬崖下发现遗体,景区被判担责15%,家属上诉:护栏存缺陷

潇湘晨报
2026-01-05 07:14:13
仅罚丢一球!杨瀚森罚球准度惊艳联盟,冲击历史纪录难度拉满!

仅罚丢一球!杨瀚森罚球准度惊艳联盟,冲击历史纪录难度拉满!

田先生篮球
2026-01-04 16:27:11
痛惜!26岁山东小伙南太行坠崖,150米落差摔至身亡,同行者吓瘫

痛惜!26岁山东小伙南太行坠崖,150米落差摔至身亡,同行者吓瘫

行者聊官
2026-01-04 14:57:19
唐罗主义开始动手,谁是下一个委内瑞拉?

唐罗主义开始动手,谁是下一个委内瑞拉?

南风窗
2026-01-05 13:27:21
当着中方的面,李在明拍胸脯做出保证,高市早苗被反将一军

当着中方的面,李在明拍胸脯做出保证,高市早苗被反将一军

基斯默默
2026-01-05 15:23:42
外交部:尚无中方在委人员受空袭影响的报告

外交部:尚无中方在委人员受空袭影响的报告

界面新闻
2026-01-05 15:56:48
特朗普突然发动战争,中国代表团还在委内瑞拉!

特朗普突然发动战争,中国代表团还在委内瑞拉!

胜研集
2026-01-03 17:14:34
中国在委内瑞拉投资累计超1300亿美元

中国在委内瑞拉投资累计超1300亿美元

凯利经济观察
2026-01-05 09:32:15
美国突袭委内瑞拉未寻求国会批准,鲁比奥辩解,美议员公开反对

美国突袭委内瑞拉未寻求国会批准,鲁比奥辩解,美议员公开反对

环球网资讯
2026-01-05 15:01:44
司晓迪疯狂开大!自曝睡过鹿晗、林更新、檀健次,关晓彤受牵连

司晓迪疯狂开大!自曝睡过鹿晗、林更新、檀健次,关晓彤受牵连

叶公子
2026-01-03 13:00:17
李在明抵京,不到24小时,中方接见另外一位贵客,美国已撕毁承诺

李在明抵京,不到24小时,中方接见另外一位贵客,美国已撕毁承诺

博览历史
2026-01-05 14:42:54
A股:周一,放量上涨,释放了两个信号,股市即将进入尾声了?

A股:周一,放量上涨,释放了两个信号,股市即将进入尾声了?

明心
2026-01-05 11:22:30
这是要直接送走吗?15个跌停后又一字跌停,公司发布终止上市风险

这是要直接送走吗?15个跌停后又一字跌停,公司发布终止上市风险

财经智多星
2026-01-05 11:18:17
广东92年小伙领养12岁外甥女?当事人回应

广东92年小伙领养12岁外甥女?当事人回应

极目新闻
2026-01-04 19:33:43
哥伦比亚总统:“特朗普先生,请停止诽谤”

哥伦比亚总统:“特朗普先生,请停止诽谤”

界面新闻
2026-01-05 11:47:29
年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

年薪50万带公司牛奶回家被妻子指责:知情人曝内情,果然有情况

奇思妙想草叶君
2026-01-04 15:13:33
泪崩了!母亲走后22天,父亲凌晨去世,一18岁女孩独自放报丧炮…

泪崩了!母亲走后22天,父亲凌晨去世,一18岁女孩独自放报丧炮…

火山詩话
2026-01-05 05:33:10
你身边有细思极恐的人吗?网友:老天爷,大晚上给我看害怕了

你身边有细思极恐的人吗?网友:老天爷,大晚上给我看害怕了

解读热点事件
2026-01-05 00:05:06
有个开明到离谱的父母是啥感觉?网友:以后我随便我崽,爱结就结

有个开明到离谱的父母是啥感觉?网友:以后我随便我崽,爱结就结

解读热点事件
2026-01-03 00:05:11
2026-01-05 16:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11972文章数 176356关注度
往期回顾 全部

科技要闻

雷军新年首播:确认汽车业务降速

头条要闻

马杜罗唯一亲生儿子发声:历史会揭晓谁是叛徒

头条要闻

马杜罗唯一亲生儿子发声:历史会揭晓谁是叛徒

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

黄宗泽夺双料视帝,泪洒颁奖台忆往昔

财经要闻

李迅雷:扩内需要把重心从"投"转向"消"

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

手机
健康
游戏
旅游
时尚

手机要闻

卢伟冰:我有信心 REDMI Turbo 5 Max就是2.5K档最好选择

这些新疗法,让化疗不再那么痛苦

《ARC Raiders》公开匹配机制:按玩家"好战"程度分区

旅游要闻

雪中蜀山行:瓦屋山上的特色游

这些才是真正接地气的穿搭!裤子基础、外套保暖,简单又自然

无障碍浏览 进入关怀版