网易首页 > 网易号 > 正文 申请入驻

美团上线首个开源并可体验的“重思考”模型,工具调用能力登顶开源SOTA

0
分享至

1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。

值得一提的是,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。

目前,该功能可在 https://longcat.ai网站免费体验。

“重思考”功能全新上线 智能体工具调用能力登顶开源 SOTA

据介绍,全新推出的“重思考”模式,已让“龙猫”学会了“深思熟虑”再行动。

具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:

并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。

经过全面严谨的评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异:


LongCat-Flash-Thinking-2601的平均性能比较(资料图)

·编程能力:LongCat-Flash-Thinking-2601在LCB评测中取得82.8分,OIBench EN 评测获47.7分,成绩处于同类模型第一梯队,代码基础能力扎实。

·数学推理能力:在开启“重思考”模式后表现突出,LongCat-Flash-Thinking-2601在 AIME-25 评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。

·智能体工具调用能力:在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平,在多领域工具调用场景下表现优异,适配实际应用需求。

·智能体搜索能力:在BrowseComp任务中取得73.1分(全模型最优),RW Search 评测获79.5分,LongCat-Flash-Thinking-2601具备强劲的信息检索与场景适配能力,达到开源领先水平。

为了更好测试智能体模型的泛化能力,团队还提出了一种全新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。

实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下优秀的泛化能力。

技术解密:从“靶场”到“实战”的训练哲学

对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

得益于这套方案,LongCat-Flash-Thinking-2601在智能体搜索、智能体工具调用等核心基准测试中稳居前列。尤其在复杂随机的分布外任务中,性能优于 Claude-Opus-4.5-Thinking。

此外,LongCat团队针对性扩展自研强化学习基础设施,在保留原有高效异步训练特性的基础上,实现大规模多环境智能体的稳定并行训练,通过均衡搭配多环境任务、按难度与训练进度智能分配算力,最大化提升训练效率与资源利用率;该团队还从复杂度、多样性双维度严控训练任务,配套专属数据库及优化方案,杜绝模型“偏科”与训练漏洞,让这套全流程方案持续赋能模型,使其稳居智能体能力第一梯队。

该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。


带噪声/无噪声评测集下的模型表现对比(资料图)

经过系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
采访突然中断,特朗普半路退出;美军舰闯入台海,解放军反制来了

采访突然中断,特朗普半路退出;美军舰闯入台海,解放军反制来了

时时有聊
2026-01-18 12:26:34
港媒爆料赵雅芝日子挺苦的,被3个儿子长期啃老,71岁还不能老!

港媒爆料赵雅芝日子挺苦的,被3个儿子长期啃老,71岁还不能老!

木子爱娱乐大号
2025-07-05 09:37:33
大家以后都得小心翼翼的活着

大家以后都得小心翼翼的活着

诗词中国
2026-01-12 20:14:03
武统还没开始,上百台军飞行员集体跑路,台专家:统一已有新模式

武统还没开始,上百台军飞行员集体跑路,台专家:统一已有新模式

东方点兵
2026-01-15 16:52:08
张本宇又被气着了,儿子2-3薛飞,气人的不是输球而是不长记性

张本宇又被气着了,儿子2-3薛飞,气人的不是输球而是不长记性

小潌拍客在北漂
2026-01-17 21:35:53
风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

风暴中的携程总部,大楼形如“高速列车”,扎哈设计!

GA环球建筑
2026-01-15 17:32:25
她不愿意被潜规则,演了近百部戏观众却叫不出她名字,42岁仍单身

她不愿意被潜规则,演了近百部戏观众却叫不出她名字,42岁仍单身

丁丁鲤史纪
2025-12-27 16:10:28
洗米华24岁女儿英国毕业,洗米嫂前往参加毕业礼,继子晒三人合照

洗米华24岁女儿英国毕业,洗米嫂前往参加毕业礼,继子晒三人合照

小霍霍
2026-01-17 16:16:10
小里弗斯严厉批评湖人队詹姆斯的经纪人保罗开播客:你又不是球员

小里弗斯严厉批评湖人队詹姆斯的经纪人保罗开播客:你又不是球员

好火子
2026-01-18 05:16:33
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
饮水机的水放多久不能喝?事关家人健康,建议多了解

饮水机的水放多久不能喝?事关家人健康,建议多了解

市井觅食记
2026-01-16 00:23:16
闫学晶风波越烧越旺!孙涛带货又被网友调侃到崩溃,最后无奈关播

闫学晶风波越烧越旺!孙涛带货又被网友调侃到崩溃,最后无奈关播

小徐讲八卦
2026-01-18 12:27:25
贺娇龙追悼会举行!丈夫心碎送别妻子,主编透露坠马真实原因

贺娇龙追悼会举行!丈夫心碎送别妻子,主编透露坠马真实原因

180视角
2026-01-16 15:04:46
“叶酸”是长寿元素,建议50岁后,多吃3种“高叶酸菜”,越吃越健康,越吃越长寿

“叶酸”是长寿元素,建议50岁后,多吃3种“高叶酸菜”,越吃越健康,越吃越长寿

美食格物
2026-01-15 07:01:09
2026 年U-23亚洲杯半决赛强碰日本,韩国主帅:“将展现更好表现”

2026 年U-23亚洲杯半决赛强碰日本,韩国主帅:“将展现更好表现”

画夕
2026-01-18 12:02:46
中雪、大雪、暴雪,“湖北雨雪图要下黑了”

中雪、大雪、暴雪,“湖北雨雪图要下黑了”

极目新闻
2026-01-17 14:06:55
非史实:台州之战倭寇武士刀削铁如泥,戚继光却让战士用竹竿迎敌

非史实:台州之战倭寇武士刀削铁如泥,戚继光却让战士用竹竿迎敌

卡西莫多的故事
2026-01-09 10:58:46
热议U23国足点杀乌兹:土帅玩防守没这么成功过,李昊笑容代表自信

热议U23国足点杀乌兹:土帅玩防守没这么成功过,李昊笑容代表自信

懂球帝
2026-01-17 22:49:01
原本都是丹麦海外领地,为何格陵兰岛没有独立,冰岛实现了独立?

原本都是丹麦海外领地,为何格陵兰岛没有独立,冰岛实现了独立?

世界纵横说
2026-01-10 12:52:14
不等、不搬、不接!2026年第一批整治特惠单乘客的网约车司机出现了,总结下来就三个字:不惯着!

不等、不搬、不接!2026年第一批整治特惠单乘客的网约车司机出现了,总结下来就三个字:不惯着!

网约车观察室
2026-01-18 10:53:40
2026-01-18 13:27:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
68365文章数 656058关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

时尚
房产
教育
数码
艺术

翻拍一部剧,有这么难吗?

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

教育要闻

致敬,你是最暖的雪景!中小学生手绘冬日城市守护者

数码要闻

QDC推出CRAVE渴望耳机,搭载多单元售价20999元起

艺术要闻

海边细沙被他表现得如此真实 | 马克·汉森

无障碍浏览 进入关怀版