网易首页 > 网易科技 > 网易科技 > 正文

美团上线首个开源并可体验的“重思考”模型

0
分享至

1月16日消息,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。据介绍,该模型在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。

具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行:

并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。经过全面严谨的评估,LongCat-Flash-Thinking-2601模型在编程、数学推理、智能体工具调用、智能体搜索等维度表现优异。

LongCat-Flash-Thinking-2601的平均性能比较(资料图)

对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

该团队还表示,现实世界的智能体环境充满不确定性,API调用失败、返回异常信息、观测数据不完整等“噪声”问题,极易导致模型决策失误。为此,团队在训练数据的过程中主动注入多类噪声,模拟API的调用失败、返回错误信息、数据缺失等场景,并用课程学习的方式循序渐进地进行模型训练,在训练过程中逐步增加噪声的类型与强度——类比教新手骑车,首先会让其在平坦路面做练习,等技能成熟后再逐步增加路面的复杂度。经过系统化的抗干扰训练,LongCat-Flash-Thinking-2601(Training w/Noise组)拥有了极强的环境适应能力,在复杂场景中,也能稳定发挥、高效完成任务。

相关推荐
热点推荐
张学良到了晚年才吐露心声:我这辈子从来不信迷信,然而在老虎厅除掉杨宇霆之后,我却不得不改变想法

张学良到了晚年才吐露心声:我这辈子从来不信迷信,然而在老虎厅除掉杨宇霆之后,我却不得不改变想法

清风鉴史
2025-12-26 17:05:13
今日四九,建议:1不穿、2不吃、3不做、4要搬,有讲究

今日四九,建议:1不穿、2不吃、3不做、4要搬,有讲究

阿龙美食记
2026-01-17 00:38:08
希勒:从皇马下课不会影响阿隆索的声望,会有很多俱乐部找他

希勒:从皇马下课不会影响阿隆索的声望,会有很多俱乐部找他

懂球帝
2026-01-17 02:45:19
1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

1月13日,美军展示了一个照片,几乎等于承认和中方没法打!

安安说
2026-01-15 14:30:22
出大事了,俄军发起“斩首行动”,特朗普秒翻脸,英法德果断下令

出大事了,俄军发起“斩首行动”,特朗普秒翻脸,英法德果断下令

傲傲讲历史
2026-01-17 02:50:03
吴佩炫232亿七星级饭店女儿赞比迪士尼美

吴佩炫232亿七星级饭店女儿赞比迪士尼美

笑饮孤鸿非
2026-01-16 21:03:19
被一些人的工作留痕给震惊到了!果然工作得严谨,防人之心不可无

被一些人的工作留痕给震惊到了!果然工作得严谨,防人之心不可无

另子维爱读史
2026-01-13 21:31:35
连赢3局,5-2!斯诺克大师赛:小特夺赛点,会师世界冠军冲决赛?

连赢3局,5-2!斯诺克大师赛:小特夺赛点,会师世界冠军冲决赛?

刘姚尧的文字城堡
2026-01-16 06:43:29
母亲为女儿带娃6个月后,母亲腹部隆起,得知真相后女儿直接崩溃

母亲为女儿带娃6个月后,母亲腹部隆起,得知真相后女儿直接崩溃

涛哥讲堂
2024-09-19 11:27:55
广东将遇“过山车式”气温升降

广东将遇“过山车式”气温升降

中国能源网
2026-01-16 17:58:04
泰国高铁22条命换来的真相:谁在暗中阻挠中国高铁?

泰国高铁22条命换来的真相:谁在暗中阻挠中国高铁?

沧海一书客
2026-01-16 06:42:26
50岁男子心梗抢救无效,每天坚持快走,医生表明:3个习惯要了命

50岁男子心梗抢救无效,每天坚持快走,医生表明:3个习惯要了命

卡西莫多的故事
2025-12-07 11:07:35
不出中国所料,李在明刚离开日本,韩国就喊话中国:我们尽快谈判

不出中国所料,李在明刚离开日本,韩国就喊话中国:我们尽快谈判

牛锅巴小钒
2026-01-17 01:15:59
王诗龄得了李湘真传,出席活动打扮得又土又圆,比34岁何超莲显老

王诗龄得了李湘真传,出席活动打扮得又土又圆,比34岁何超莲显老

丰谭笔录
2025-11-16 13:20:22
李湘多平台账号被禁止关注,平台客服回应!其名下关联20家企业14家注销,全平台粉丝近3000万,1分钟以上广告报价30万元

李湘多平台账号被禁止关注,平台客服回应!其名下关联20家企业14家注销,全平台粉丝近3000万,1分钟以上广告报价30万元

每日经济新闻
2026-01-16 15:23:10
越南决定赌,宁愿多花300亿美元也不选中国

越南决定赌,宁愿多花300亿美元也不选中国

扶苏聊历史
2025-12-22 15:52:18
澜起科技:预计2025年年度净利润为21.5亿元~23.5亿元,较上年同期增长52.29%~66.46%

澜起科技:预计2025年年度净利润为21.5亿元~23.5亿元,较上年同期增长52.29%~66.46%

每日经济新闻
2026-01-16 18:43:08
69岁男星为还巨债「凌晨厦门卖水果」,网友心痛:看起来好累

69岁男星为还巨债「凌晨厦门卖水果」,网友心痛:看起来好累

粤睇先生
2026-01-16 00:35:43
爱我如命的妻子执意为心上人生子,满月酒当天我消失,她却崩溃了

爱我如命的妻子执意为心上人生子,满月酒当天我消失,她却崩溃了

点读故事会
2025-12-11 15:35:22
富婆主持背刺水表圈被封杀

富婆主持背刺水表圈被封杀

毒舌扒姨太
2026-01-16 22:09:34
2026-01-17 03:35:00

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

美媒披露:美国出动海军陆战队和福特号航母

头条要闻

美媒披露:美国出动海军陆战队和福特号航母

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

家居
手机
房产
亲子
公开课

家居要闻

岁月柔情 现代品质轻奢

手机要闻

真我Power再曝,6.78英寸曲面屏、万级大电池

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

亲子要闻

精神科医生:家长的“为你好”也可能对孩子造成创伤

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×