网易首页 > 网易号 > 正文 申请入驻

美团上线首个开源“重思考”模型

0
分享至


图片由AI生成

1月16日,美团LongCat官宣, LongCat-Flash-Thinking-2601现已开源。

美团表示,作为LongCat-Flash-Thinking模型的升级版,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。

据美团介绍,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务。

新推出的“重思考”模式,已让“龙猫”学会了“深思熟虑”再行动。

具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:

并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现“想清楚再行动”的结果。

经评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异。

LongCat-Flash-Thinking-2601的平均性能比较,图片来源:美团

为了测试智能体模型泛化能力,团队提出了一种新的评测方法——通过构建一套自动化任务合成流程,支持用户基于给定关键词,为任意场景随机生成复杂任务,并为每个生成的任务配备对应的工具集与可执行环境。

由于这类环境中的工具配置具有高度随机性,该方法可通过评估模型在该类环境中的性能表现,衡量其泛化能力。

实验结果表明,LongCat-Flash-Thinking-2601在大多数任务中保持领先性能。

对于新模型的技术思路,LongCat团队解释称,传统智能体往往在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。

而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。

实验证明,训练环境越丰富,模型在未知场景中的泛化能力越强。得益于这套方案,LongCat-Flash-Thinking-2601在智能体搜索、智能体工具调用等核心基准测试中稳居前列。

LongCat团队称,在复杂随机的分布外任务中,LongCat-Flash-Thinking-2601性能优于Claude-Opus-4.5-Thinking。(作者|李程程,编辑|李玉鹏)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
澳洲一家人日本旅游破防:到处被嫌弃,只有7-11收留我们!

澳洲一家人日本旅游破防:到处被嫌弃,只有7-11收留我们!

新欧洲
2026-01-18 20:59:29
专家说出实话:一个家庭有房有车,银行有10万存款,算什么水平?

专家说出实话:一个家庭有房有车,银行有10万存款,算什么水平?

蜉蝣说
2026-01-18 20:12:03
詹姆斯连续21年全明星首发!历史独一档!纪录比得分王还难破?

詹姆斯连续21年全明星首发!历史独一档!纪录比得分王还难破?

氧气是个地铁
2026-01-20 15:06:59
2999元!刚发布的真全面屏透明新机,太猛了

2999元!刚发布的真全面屏透明新机,太猛了

3C毒物
2026-01-21 00:10:11
为什么枣木不能当柴烧?一位60岁的护林员告诉我

为什么枣木不能当柴烧?一位60岁的护林员告诉我

忠于法纪
2026-01-20 18:36:28
阿卡新发球动作神似德约,德约回应:发Ace要给我版权费

阿卡新发球动作神似德约,德约回应:发Ace要给我版权费

网球之家
2026-01-20 13:03:23
恭喜国米!捡漏曼城巨星!罗马诺确认,30岁年富力强未来5年无忧

恭喜国米!捡漏曼城巨星!罗马诺确认,30岁年富力强未来5年无忧

阿泰希特
2026-01-20 11:39:42
穆里尼奥肥皂剧回应皇马传闻,62岁狂人的黄昏抉择

穆里尼奥肥皂剧回应皇马传闻,62岁狂人的黄昏抉择

浮萍足球
2026-01-20 06:22:09
因未被授予诺贝尔和平奖,特朗普:我不再有义务只考虑和平

因未被授予诺贝尔和平奖,特朗普:我不再有义务只考虑和平

第一财经资讯
2026-01-19 17:17:18
重新开征农业税,激发农民责任感和荣誉感?这是要把农民逼上绝路

重新开征农业税,激发农民责任感和荣誉感?这是要把农民逼上绝路

刚哥说法365
2025-09-24 16:33:59
提供两种动力 新款长安UNI-V申报图曝光

提供两种动力 新款长安UNI-V申报图曝光

车质网
2025-12-08 09:11:18
王牌职业暴跌70%,一年消失50万家,高薪梦碎

王牌职业暴跌70%,一年消失50万家,高薪梦碎

明天见灌装冰块
2026-01-20 21:04:16
IGN评分3.0的垃圾掌机游戏,怎么突然成了《33号远征队》劲敌?"/> 主站 商城 论坛 自运营 登录 注册 IGN评分3.0的垃圾掌机游戏,怎么突然...

IGN评分3.0的垃圾掌机游戏,怎么突然成了《33号远征队》劲敌?"/> 主站 商城 论坛 自运营 登录 注册 IGN评分3.0的垃圾掌机游戏,怎么突然...

3DM游戏
2026-01-20 22:10:18
老祖宗的智慧:如果第二脚趾长过大拇趾,这种人晚年命运早已注定

老祖宗的智慧:如果第二脚趾长过大拇趾,这种人晚年命运早已注定

卡西莫多的故事
2026-01-17 08:05:09
季克良:工作50年喝掉2吨茅台,退休7年被返聘,今87岁身体硬朗

季克良:工作50年喝掉2吨茅台,退休7年被返聘,今87岁身体硬朗

白面书誏
2026-01-20 00:58:18
越媒:越南球迷对穿红球衣表示高兴,这也能在精神上鼓舞球员

越媒:越南球迷对穿红球衣表示高兴,这也能在精神上鼓舞球员

懂球帝
2026-01-20 16:57:20
卢伟:胜利献给寿星王哲林;古德温瞒着我吃止痛药上场让我很感动

卢伟:胜利献给寿星王哲林;古德温瞒着我吃止痛药上场让我很感动

懂球帝
2026-01-20 23:06:21
广西下雪了!急剧降温过后,回南天马上就来!

广西下雪了!急剧降温过后,回南天马上就来!

南国微生活
2026-01-20 15:53:13
别愁了!优衣库这条“死亡蓝”阔腿裤,这么搭直接封神

别愁了!优衣库这条“死亡蓝”阔腿裤,这么搭直接封神

冒泡泡的鱼儿
2026-01-21 00:15:58
记者:包括巴萨在内的多支豪门关注阿尔瓦雷斯的动态

记者:包括巴萨在内的多支豪门关注阿尔瓦雷斯的动态

懂球帝
2026-01-21 01:05:26
2026-01-21 01:36:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129211文章数 861679关注度
往期回顾 全部

科技要闻

收藏|这可能是CES2026最清醒一份复盘

头条要闻

14999元华为智能门锁上市即倒挂 二级市场折让3千多元

头条要闻

14999元华为智能门锁上市即倒挂 二级市场折让3千多元

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

李迅雷:2026买房不如租房

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

游戏
本地
旅游
公开课
军事航空

《秘奥:秘宇奥忆》评测:因简洁而特别"/> 主站 商城 论坛 自运营 登录 注册 《秘奥:秘宇奥忆》评测:因简洁而特别 Marvin 2026-01-2...

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

旅游要闻

寒假怎么玩?来四川解锁通往未来的彩蛋

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版