网易首页 > 网易号 > 正文 申请入驻

美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶

0
分享至

1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,
LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。

值得一提的是,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。

目前,该功能可在 https://longcat.ai网站免费体验。

“重思考”功能全新上线 智能体工具调用能力登顶开源 SOTA

据介绍,全新推出的“重思考”模式,已让“龙猫”学会了“深思熟虑”再行动。

具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:

并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让
LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。

经过全面严谨的评估,
LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异:



LongCat-Flash-Thinking-2601的平均性能比较(资料图)

· 编程能力:
LongCat-Flash-Thinking-2601在LCB评测中取得82.8分,OIBench EN 评测获47.7分,成绩处于同类模型第一梯队,代码基础能力扎实。

· 数学推理能力:在开启“重思考”模式后表现突出,
LongCat-Flash-Thinking-2601在 AIME-25 评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。

· 智能体工具调用能力:在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平,在多领域工具调用场景下表现优异,适配实际应用需求。

· 智能体搜索能力:在BrowseComp任务中取得73.1分(全模型最优),RW Search 评测获79.5分,
LongCat-Flash-Thinking-2601具备强劲的信息检索与场景适配能力,达到开源领先水平。

为了更好测试智能体模型的泛化能力,团队还提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。

实验结果表明,
LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下优秀的泛化能力。

技术解密:从“靶场”到“实战”的训练哲学

对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

得益于这套方案,
LongCat-Flash-Thinking-2601在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中,性能优于 Claude-Opus-4.5-Thinking。

此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,使其稳居智能体能力第一梯队。

该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。



带噪声/无噪声评测集下的模型表现对比(资料图)

经过系统化的抗干扰训练,
LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赢球就是硬道理!强调态度+执行力,安东尼奥把中国足球带回正轨

赢球就是硬道理!强调态度+执行力,安东尼奥把中国足球带回正轨

中国足球的那些事儿
2026-01-17 23:56:49
1958年,2亿只麻雀一夜之间没了,大家都以为保住了粮食,结果第二年那报应来得太猛,还得厚着脸皮找苏联救急

1958年,2亿只麻雀一夜之间没了,大家都以为保住了粮食,结果第二年那报应来得太猛,还得厚着脸皮找苏联救急

历史回忆室
2025-12-26 11:11:27
国足未来第一右后卫:杨希加时赛最后10分钟4镜头太感人!

国足未来第一右后卫:杨希加时赛最后10分钟4镜头太感人!

邱泽云
2026-01-17 23:40:58
果然被我说中!正在访问中国的加拿大总理突然宣布了一个大好消息

果然被我说中!正在访问中国的加拿大总理突然宣布了一个大好消息

达文西看世界
2026-01-17 19:02:00
格陵兰岛的原住民,为什么长得像中国人?他们是华夏后裔吗?

格陵兰岛的原住民,为什么长得像中国人?他们是华夏后裔吗?

西莫的艺术宫殿
2026-01-18 10:29:02
美国教授:特朗普就像最有天赋的运动员一样,是百年一遇的天才

美国教授:特朗普就像最有天赋的运动员一样,是百年一遇的天才

余們搞笑段子
2026-01-03 08:16:45
万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

万万没想到,6年前反中乱港分子的幕后金主,竟是个“爱国”商人

百态人间
2026-01-17 16:16:00
为什么说退休后不能经常去聚会?65岁老人说出了答案,很现实

为什么说退休后不能经常去聚会?65岁老人说出了答案,很现实

烙任情感
2026-01-17 11:33:09
不去波多黎各了?北京跟队记者:首钢诚意打动麦基 他有多个选项

不去波多黎各了?北京跟队记者:首钢诚意打动麦基 他有多个选项

大嘴爵爷侃球
2026-01-18 12:12:12
陈小群被精准做局?敲山震虎,天天打板投机消停,价值投资崛起?

陈小群被精准做局?敲山震虎,天天打板投机消停,价值投资崛起?

拉风的萤火虫牛市梦
2026-01-18 08:10:06
笑不活了,谁发明的动图倒放,太鬼畜了!

笑不活了,谁发明的动图倒放,太鬼畜了!

夜深爱杂谈
2026-01-17 21:02:37
脸疼不疼?人民网彻查后,闫学晶首现身再传噩耗,这回真洗不白了

脸疼不疼?人民网彻查后,闫学晶首现身再传噩耗,这回真洗不白了

草莓解说体育
2026-01-18 05:06:40
张水华很满意重马表现再超国际健将标准 这次前三名才需要药检

张水华很满意重马表现再超国际健将标准 这次前三名才需要药检

劲爆体坛
2026-01-18 12:14:11
美国女子用1.25亿买下清朝老宅,整栋运回美国,现成华人必去景点

美国女子用1.25亿买下清朝老宅,整栋运回美国,现成华人必去景点

泠泠说史
2025-12-02 18:01:54
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
武汉胃在巴黎被安抚了!蔡林记欧洲首店在法国试营业,热干面10.5欧一碗,仅在晚上迎客,网友:“过早”变成了“过晚”

武汉胃在巴黎被安抚了!蔡林记欧洲首店在法国试营业,热干面10.5欧一碗,仅在晚上迎客,网友:“过早”变成了“过晚”

极目新闻
2026-01-17 18:43:13
曝卡塞米罗续约曼联条款,一条件可保35万周薪!卖齐尔克泽恐已定

曝卡塞米罗续约曼联条款,一条件可保35万周薪!卖齐尔克泽恐已定

罗米的曼联博客
2026-01-18 09:53:52
英超积分榜:阿森纳7分优势领跑,曼联上升至第5,热刺第14

英超积分榜:阿森纳7分优势领跑,曼联上升至第5,热刺第14

懂球帝
2026-01-18 08:51:11
人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

人民日报怒批!炫富、偷税749万、跑国外,现又来“割内地韭菜”

小熊侃史
2026-01-18 07:20:09
涉中国电动汽车,美交通部长称“加拿大会后悔”,外国网友回怼:该后悔的是美国吧!

涉中国电动汽车,美交通部长称“加拿大会后悔”,外国网友回怼:该后悔的是美国吧!

环球网资讯
2026-01-17 22:38:14
2026-01-18 13:15:00
读懂数字财经
读懂数字财经
用数据,说点财经人话
1820文章数 3561关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

教育
家居
数码
手机
公开课

教育要闻

致敬,你是最暖的雪景!中小学生手绘冬日城市守护者

家居要闻

岁月柔情 现代品质轻奢

数码要闻

QDC推出CRAVE渴望耳机,搭载多单元售价20999元起

手机要闻

荣耀Magic8 Pro Air支持eSIM,搭配实体SIM卡可实现四卡双待

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版