阿里发布了他们最强思考模型，有点东西。。（附实测）|调用|max|新论文|agent|阿里巴巴集团

分享至

大家好，我是熬夜追新模型的袋鼠帝。

昨天晚上，我正准备关电脑睡觉，阿里突然甩出了一个重磅炸弹：Qwen3-Max-Thinking 正式发布。

我看完，反手就点赞+在看

不过，说什么数字游民，自由职业，其实我的作息完全掌握 AI 手里。

AI一进化，我就得起来干活。。。

吐槽归吐槽，身体还是很诚实的。

毕竟作为国产模型之光，千问每一次更新都挺让人期待的。

于是我立马不困了，爬起来连夜实测，看看这次能想会干，比强更强到底怎么样。

Max都是旗舰级的闭源模型，所以性能会更强劲

这次Qwen3-Max-Thinking号称性能媲美 GPT-5.2 和 Gemini 3 Pro，特别是在数学、代码和长逻辑推理上有了质的飞跃。

最关键的是，它的 Agent 能力大幅增强，能像真人一样边用工具边思考，而且幻觉更少。

那岂不是非常适合接入最近爆火的个人AI助手clawdbot中使用？

介绍clawdbot，以及如何安装使用袋鼠帝，公众号：袋鼠帝AI客栈

再给大家聊聊这次更新的核心技术亮点（我觉得非常实用），非常重要：

能看到阿里这次在 Reasoning（推理）路线上走出了一条非常独特的路径。

1. 测试时扩展（Test-Time Scaling）：从"人海战术"转向深度反思

传统的推理增强往往采用并行采样（Parallel Sampling）策略，即 Best-of-N，通过生成多条推理路径再进行投票或打分。

这种方式虽然有效，但计算冗余极高，边际效应递减明显。

Qwen3-Max-Thinking 采用了一种“经验累积式迭代”策略。

它利用“经验提取（Experience Extraction）”机制，将上一轮推理中的关键洞见（Insight）提炼出来，注入到下一轮的 Context 中。这使得模型能够在不增加 Token 消耗量级的情况下，通过自我反思修正错误，收敛至更优解。

就好比一些模型解难题，就像是让 100 个普通学生同时做同一道题，然后看谁的答案对（人海战术，浪费资源且容易大家都做错）。

Qwen3-Max-Thinking像是一个资深学霸，做题时会先打草稿，发现第一步思路不对，立刻总结教训，换个思路继续推导，直到解出答案。

不是一直试错，是在迭代。

2. 自适应工具调用：原生Agent的肌肉记忆

大多数模型的工具调用依赖于 Prompt Engineering（提示词工程），即告诉模型你有xxx工具，能干什么，请使用它。

Qwen3-Max-Thinking这次通过大规模的RL（强化学习）后训练，将工具调用内化为模型的原生能力。

它不再需要显式的Trigger，而是基于对任务复杂度的感知，自主决策何时挂起推理、调用 Search 获取实时信息、或调用 Python 解释器进行精确计算等。

这种边想边做的能力，大幅降低了幻觉（Hallucination），也进一步提升了解决真实世界复杂任务的能力。

3. 极致的生态兼容：可丝滑接入Claude Code

这一点对于开发者至关重要：Qwen3-Max-Thinking 不仅兼容 OpenAI 协议，更原生兼容了 Anthropic API 协议。

这意味着它可以丝滑接入 Claude Code。只需修改 API地址和 API Key。

现在Qwen3-Max-Thinking可以在网页使用

https://chat.qwen.ai/

也可以通过API使用

接下来，老规矩，咱们直接上实测。

PS：Qwen3-Max-Thinking名字有点长，下文就用Qwen或者Qwen3代替了~

1.网文圈《校花的贴身高手》

由于联网搜索已经自动整合进深度思考（由Agent自行判断是否需要联网），所以只需要打开深度思考即可（看见有读者在别的公众号评论区提问，为什么没有联网搜索了）

这是一部连载了十多年的网络小说，无数人从初中到大学毕业，从乔布斯Iphone时代到LLM时代，还在看这本小说，然而此书作者依然还在日更。

书中剧情有一个关键节点，就是登上天阶岛，来问问Qwen是否能正确找到。

prompt：在网络小说，校花的贴身高手中，主角是在哪一章登上天阶岛的？

有意思的是，查看思维链，可以看见，Qwen3-Max-Thinking会有意识地交叉对比不同的结果，防止被干扰，并且思考后给出章节不同的原因和结论，让人感觉非常可靠。

我去QQ阅读APP核实了一下，是正确的

接下来我又尝试让Qwen3-Max-Thinking用代码给我画个图，看看能不能在超过2000万字的小说中找到主角实力晋升的曲线。

Qwen3在思维链中意识到，两千万字还是太多了，这个任务无法完成，但是基于我的意图，还是找到了具有代表性的章节和晋升节点，给我画了出来，完成任务

2.（斩杀线热梗）逻辑陷阱

斩杀线最近非常火，我给Qwen3造了一个逻辑陷阱，还和豆包进行对比，看看Qwen会不会陷进去

prompt：牢a是大a股买进去之后在坐牢吗

Qwen3 完全正确，一下子就意识到这是一个人的网名，然后还告诉我这是常见的误解。仔细看思维链，能发现Qwen居然搜索了x和facebook，但是豆包似乎都没触发网络搜索。这下Qwen 3的Agent能力又赢了。

3.和Gemini 3 pro比较电影测评

考验在海量信息中网络搜索真相，这点完胜Gemini 3 pro

前两天“重返寂静岭”上映，第一时间就去看了，没想到是烂片，

只能说被吓得莫名其妙，剧情很莫名其妙，看不懂，前面两个女生抱在一起，一个被吓得在刷小红书，一个被吓得在玩微信小游戏，我买的还是最中间的座位，不舍得走，但又一直被吓，主要是剧情莫名其妙。

马上试试AI搜索到的结果，是不是能符合我的真实体验。

先试了Gemini 3：根本没提到最新上映的重返寂静岭。。

而且搜索结果里似乎自相矛盾了，阿凡达同时出现在“值得一看“和“建议避雷”里，让人有点困惑。

又试了这回的Qwen 3，因为交给Agnet自动判断是否需要网络查询了，所以我们只要打开深度思考就好了。

Qwen3—Max甚合我意！简直和我内心的意见一模一样（每一场我都在电影院看过了，AI和我的意见居然一样）

这些影评都是非常真实的。

我又点开思维链，仔细看看Qwen3具体是如何做到这一点的。

可以看见，Qwen 3在内置Agent的调度下，一边搜索、整理、又搜索，又整理，进行了几轮的整理，才有了最后的准确答案

并且在思维链中可以逐一看见被Qwen3搜索过的每一个影评网站，可以点击进去浏览，能把海量信息汇总并且找到正确的信息，确实不错。

4.记忆（功能上新，类似ChatGPT和Gemini）

这次千问也终于有了记忆：

点击头像，就能在设置里面打开或者关闭记忆。

下面做了一个场景预设测试，假如我是一个高考生，平时就爱和AI介绍自己喜欢的事情。

那么假如已经到了高考报志愿的时候，Qwen就可以根据我以往所有的聊天偏好，对我进行分析，找到最适合我的专业。（以下新开了一个聊天窗口进行测试），

可以看见，不给任何上下文信息，直接向Qwen 3 提问我适合什么专业。

Qwen 3 的回答是正确的。因为这就是我本人的真实经历，非常认同AI的判断。

5.视频总结（支持上传十分钟以内的视频）

大概十秒钟，总结很顺利，比以前快多了，查看思维链，可以看见一步步梳理脉络

6.预测26年春晚，具身智能机器人表演到什么程度

时光匆匆又一年，年味渐浓

2026年春晚，宇树科技将第三次登上春晚的舞台。

去年具身智能机器人表演的是《秧BOT》，今年又会进展如何呢？

让Qwen3预测一下今年的具身智能机器人，在春晚的舞台上会有什么样的表演。

到时候看Qwen3预测得准不准，春晚就揭晓！

7.公务员真题图形推理题

Qwen思路和答案都完胜，gemini 3 pro居然做错了

纯图形题目对于只有文字输入的大模型来说是无解的

但是这次Qwen 3 max是可以上传视频的，来看看Qwen 3 实力如何。

下面是一道，公务员考试真题：

如何判断这是一道好的公务员题目，就在于每个人去看了答案，都会觉得很简单，但是让你自己在考场做，就是做不出来。

这样的题目考验的正是公务员在为人民服务的过程中办理实事、处置突变事项、临场判断的综合素质，而不是悠哉坐在办公室里的马后炮和键盘侠。

正强如Gemini 3 pro也做不出来，我一点不意外。

但是让我很意外的是，Qwen 3 max居然做出来了

以下是Qwen 3 max的解题

让我们点开思维链，看看Qwen 3 max是如何思考的：

可以看见Qwen 3 的结构化思考，完全就是一位真实的公务员考生：

先是分析图形变化规律、然后再尝试推导逻辑关系，然后发现了找不到这个规律，于是又返回上一层重新思考图形规律，最后找到正确思路。

其实最后这一句（注：）实为画龙点睛之笔，让我啧啧称奇。

一年几百万公务员考生不断刷题、报班、看课，就是为了找到题型规律，让自己的脑子在考场上能适应“试题模式”，从而拿高分。

然而，Qwen 3 轻飘飘说出这一句，于无声处听惊雷，意味着已经完全把公务员考试的出题逻辑尽在掌握。

以下是Gemini 3 pro思考了接近4分钟后，不仅被这道题目逼出了母语英文，

还给出了错误答案。

特地翻译出来，看看gemini 3到底怎么错的。

其实Gemini 3 pro一度接近正确思路，但是不知为何突然开始混乱了，

也许是因为还没有Qwen 3 pro一样，能懂得公务员考试的出题套路。

代码类：会喷火的旋转六边形小球

似乎代码能力并没有那么好，试了一下GLM4.7能顺利跑出来的case，Qwen 3还是有瑕疵。

prompt：用 HTML、CSS 和 JavaScript 实现这样一个效果：一个小球被困在一个旋转的六边形内部。小球受到地球重力的作用，并与六边形内壁产生摩擦。小球的弹跳需要看起来逼真自然。

优点是，Qwen 3 自动帮我考虑到了可调节参数，能让我调节旋转速度、重置位置、暂停旋转等，下面还有参数显示。

缺点是，这个明显还有缺陷，小球会喷火。。

虽然 Qwen3-Max-Thinking 在代码场景下还有瑕疵，但整体表现还是非常不错的。

特别是在逻辑推理、信息检索和中文语境的理解上，它给人的感觉非常扎实。

不知道Qwen在春节还有没有什么压箱底的大招，再放出来，我们可以一起期待一下。毕竟阿里的技术还是非常强劲的~

我是袋鼠帝，一个在这个AI时代，持续分享AI实践干货，陪你一起进化的数字游民。

点击关注下方账号，你将感受到一个朋克的灵魂。

能看到这里的都是凤毛麟角的存在！

如果觉得不错，随手点个赞、在看、转发三连吧~

如果想第一时间收到推送，也可以给我个星标⭐

谢谢你耐心看完我的文章~

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

阿里发布了他们最强思考模型，有点东西。。（附实测）

马化腾3年年会讲话透露了哪些关键信息

美报告称中国是其19世纪以来面对过的最强大国家

美报告称中国是其19世纪以来面对过的最强大国家

冒充职业球员，比赛规则还和对手现学？

张雨绮风波持续发酵，曝多个商务被取消

多地对垄断行业"近亲繁殖"出手了

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

云游中国｜拨开云雾，巫山每帧都是航拍大片

苹果连发4版系统：从iPhone 5s到iOS 26，果粉福音来了！

这些韩系穿搭最适合普通人！多穿深色、衣服基础，简洁耐看

美海军"林肯"号航母打击群抵达中东地区