千问 3.6 登顶全球调用量榜首，阿里 ATH 真正押注的是什么？|悟空|编程|工作流|阿里ath|阿里巴巴集团

千问 3.6 登顶全球调用量榜首，阿里 ATH 真正押注的是什么？

2026-04-07 11:05:41　来源: 呼呼历史论

辽宁举报

分享至

4 月 4 日，发布仅两天的千问 3.6-Plus 登顶全球最大 AI 模型 API 聚合平台 OpenRouter 日榜榜首，单日 Token 消耗突破 1.4 万亿，打破该平台单日单模型调用量的历史纪录。OpenRouter 官方评价其为有史以来「最强劲的新模型表现」。

OpenRouter 汇聚了 Claude、GPT、DeepSeek、GLM 等全球主流模型，开发者和企业在这里用真金白银投票。一个上线不到 48 小时的中国模型拿下榜首，调用量飙升 711%，背后一定不只是产品力的问题。

时间倒回两周。3 月 16 日，阿里巴巴正式成立 Alibaba Token Hub（ATH）事业群，CEO 吴泳铭亲自挂帅，围绕「创造 Token、输送 Token、应用 Token」重组 AI 业务线。随后，阿里在一周内连发三款模型：全模态 Qwen3.5-Omni、图像生成 Wan2.7-Image，以及 4 月 2 日压轴登场的基座大模型 Qwen3.6-Plus。

三连发的节奏本身就是一个信号。但更值得追问的是：ATH 的第一场硬仗，为什么选的是编程模型？

编程能力是 Agent 时代的入场券

要回答这个问题，需要先理解一个产业背景的变化。

从 2025 年下半年开始，AI 产业的核心叙事从「模型能力」转向了「Agent 能力」。区别在于：前者比的是模型有多聪明，后者比的是模型能不能自主完成任务。而要让 AI Agent 真正可用，编程和工具调用能力是最底层的基础设施。

原因不复杂。Agent 的工作方式是接收指令、拆解任务、调用工具、执行操作、验证结果。这个链路中的每一步，本质上都是在写代码和运行代码。一个不会编程的模型，做不了真正的 Agent。

千问 3.6-Plus 的产品设计正是对准了这个需求。根据阿里披露的评测结果，Qwen3.6-Plus 在真实代码修复、终端操作、长程编程规划等多个维度的第三方测试中，均达到了与 Claude Opus 4.5 对标的水平，同时超越了参数量两到三倍于己的 GLM-5 和 Kimi-K2.5。换句话说，千问 3.6 是用更小的模型做到了更强的编程表现。

几个硬指标值得关注：100 万词元的上下文窗口，对 Claude Code、Cline、OpenCode 等主流 Agent 框架的适配优化，以及百万 Tokens 输入最低 2 元的定价。

在 LMArena Code Arena React 榜单上，千问 3.6-Plus 得分 1452，仅次于 Anthropic 的 Claude Opus 4.6-Thinking（1540 分），以 4 分优势领先 GPT-5.0-High（1448 分），以 12 分差距超越 Gemini 3.1 Pro Preview（1440 分）。

Code Arena React 榜单之所以受到关注，是因为它测的不是写一个函数或补全一段代码，而是让模型独立完成一个完整的 Web 项目，从零开始搭建、编写逻辑、处理异常，直到跑通全流程。这正是 Agentic Coding 场景对模型能力的核心要求。

千问 3.6-Plus 的定价也透露出战略意图。 百万 Tokens 输入 2 元，在国内主流模型中处于低价区间。Agent 在执行任务时需要反复调用模型。拆解、规划、执行、校验，每个环节都在消耗 Token，总量远超传统的单轮对话。「低定价+强编程能力」，指向的是同一个目标：让开发者和企业愿意把 Agent 任务交给千问来跑。

ATH 的更大赌注：从模型能力到商业闭环

编程能力是产品层面的故事。但把视角拉到 ATH 的组织架构，能看到一个更大的棋局。

先看千问在国内的竞争位置。全球第二、国产第一，这个排名对阿里意味着什么？

与 Claude 4.6 Opus 的 88 分差距（1452 vs 1540）说明千问已经进入全球第一梯队，但尚未触及天花板。不过，对国内竞品的优势更具实际商业价值：在企业客户做模型选型时，「国产最强编程模型」是一个非常直接的决策依据。

事实上，千问的 B 端底盘已经成型。根据沙利文 2026 年 2 月发布的报告，2025 年下半年中国企业级大模型日均调用量中，千问占比从上半年的 17.7% 跃升至 32.1%，几乎翻倍，领先优势扩大。目前千问服务超过 100 万家企业客户，覆盖所有中国汽车品牌、90% 以上金融机构和 90% 以上手机品牌。

这组数据的意义在于：千问不只是在跑分上领先，而是在真实的企业场景中被选择。 编程能力的提升，会直接放大这个优势。企业客户需要的不是聊天机器人，而是能嵌入工作流、自主执行任务的 AI Agent。

ATH 的组织设计也在为这个逻辑服务。根据此前的报道，通义实验室负责基础模型研发，MaaS 业务线搭建模型服务平台，千问事业部做 C 端个人助手，悟空事业部做 B 端 AI 原生工作平台，AI 创新事业部探索新场景。

其中最值得关注的是悟空事业部。按照内部公告的说法，悟空的目标是「将模型能力深度融入企业工作流」，这意味着阿里不只是卖模型 API，而是要做企业级 AI 应用平台。结合千问在企业调用市场的领先份额和庞大的钉钉、阿里云客户基础，悟空有可能成为 ATH 商业化链路中最关键的一环。

阿里的新 AI 体系刚刚启动

2026 年，全球 AI 行业竞争正在从比拼单一模型转向比拼体系效率。 谁能最快把模型能力变成开发者和企业客户的日常工具，谁就能在 Agent 时代占据有利位置。

千问 3.6-Plus 是 ATH 的第一张成绩单，但不会是最后一张。结合阿里巴巴披露的消息，千问 3.6 系列还将开源更多尺寸的模型，性能更强的旗舰模型 Qwen3.6-Max 也将于近期发布。

这也说明阿里巴巴当前的 AI 打法是「用密集发布建立势能、用开源策略扩大开发者基础、用低价策略抢占 Agent 场景的调用量」。而这套逻辑是否成立，取决于三个关键变量：开发者生态的实际迁移速度、悟空事业部的产品落地效果，以及 Qwen3.6-Max 能否进一步获得性能的突破。

ATH 的赌注不小，但至少从第一张成绩单来看，方向是清晰的。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.