网易首页 > 网易号 > 正文 申请入驻

美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

0
分享至

快科技9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。

在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。

综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。

同时,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备"深度思考+工具调用"与"非形式化+形式化"推理能力相结合的大语言模型。

该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。

具体表现如下:

通用推理能力:LongCat-Flash-Thinking具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。

数学能力:LongCat-Flash-Thinking在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在HMMT和AIME相关基准上取得突破性成绩,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。

代码能力:在编程领域,LongCat-Flash-Thinking展现出开源模型最先进的性能(SOTA)与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当,证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。

智能体能力:LongCat-Flash-Thinking在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数,大幅领先所有其他参与评估的模型,在pass@8和pass@32中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。

目前,LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

泪满过眼
2026-03-21 21:48:10
糖尿病能喝酒吗?医生提醒:喝酒时注意这个病,要喝就要这样喝

糖尿病能喝酒吗?医生提醒:喝酒时注意这个病,要喝就要这样喝

快乐的小大夫
2024-08-22 10:26:01
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

因祸得福!烧129年的地下火被灭,新疆凭空多了个金饭碗

混沌录
2026-03-24 23:03:10
马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

马筱梅低调为汪宝办满月,亲戚一概没出镜,汪小菲盛赞岳母很辛苦

小娱乐悠悠
2026-03-25 10:28:48
特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

特朗普据悉将请扎克伯格、 埃里森和黄仁勋加入 科技委员会

每日经济新闻
2026-03-25 23:07:37
蓝营一天三大噩耗!柯文哲预言成真,郑丽文陷入辞职危机

蓝营一天三大噩耗!柯文哲预言成真,郑丽文陷入辞职危机

青梅侃史啊
2026-03-25 12:17:08
“花48元请她吃饭,她不让睡只能奸杀”,2016年19岁女孩被奸杀

“花48元请她吃饭,她不让睡只能奸杀”,2016年19岁女孩被奸杀

汉史趣闻
2026-03-26 14:13:20
拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

拒绝回归WCBA!李月汝再赴美国,官宣重磅决定,韩旭也要这么干了

萌兰聊个球
2026-03-26 13:09:33
国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

国民党大乱!马英九紧急发声,郑丽文下场开骂:扯破脸、斗到底!

阿策聊实事
2026-03-26 04:16:27
以军一特种部队士兵在黎巴嫩南部死亡

以军一特种部队士兵在黎巴嫩南部死亡

界面新闻
2026-03-26 16:15:25
据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

据报:伊朗最高领袖穆杰塔巴·哈梅内伊同意与美国进行谈判并达成协议

紫京讲谈
2026-03-26 01:39:04
孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

孙子生日,我转了8888元给儿媳,她回复2个字,我直接冻结银行卡

清茶浅谈
2025-09-07 23:32:29
3月25日俄乌:川普再次吹嘘并“许愿”

3月25日俄乌:川普再次吹嘘并“许愿”

山河路口
2026-03-25 16:36:21
主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

主场32分惨败上海!山西主帅:这是我接队以来,打得最差一场比赛

狼叔评论
2026-03-25 23:58:05
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

NBA积分榜又乱了!掘金4连胜,火箭加时2分惜败,快船稳居第8

薇说体育
2026-03-26 16:03:59
41岁张雪峰离世后遗产分配上热搜!11岁女儿张姩菡面临跟后妈争产,是否立遗嘱成关键

41岁张雪峰离世后遗产分配上热搜!11岁女儿张姩菡面临跟后妈争产,是否立遗嘱成关键

观星赏月
2026-03-26 03:56:16
FCC把3亿台路由器扔进黑名单,中国厂商连夜改产线

FCC把3亿台路由器扔进黑名单,中国厂商连夜改产线

Ping值焦虑
2026-03-25 13:41:53
2026-03-26 16:48:49
快科技 incentive-icons
快科技
一起关注每日科技热点
108904文章数 260212关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
时尚
手机
数码
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版