全球编程模型榜首换人了。4月7日,阿里云通义千问Qwen3.6-Plus上线,在Terminal-Bench 2.0测试中超越Claude Opus 4.5。但Benchmark分数是一回事,真实项目里能不能扛活儿是另一回事。
我们设计了两套真实任务,测它的"决策力"和"执行力"边界。
![]()
第一关:复杂决策
任务背景:某市教育局要在6个月内,给20所公立中学部署"AI学习助手"。约束条件堆成山——城区8所、县镇12所,数字化基础悬殊;教师怕增加负担;家长担心隐私和沉迷;教育局要求不能扩大教育差距;下学期必须上线;不能新增编制;效果好2年内扩到200所。
第2个月还突发两起危机:媒体曝光某校学生过度依赖AI写作业,3所县镇学校反馈网络终端不足、使用率远低于城区。
要求输出:问题定义、目标拆解、6个月方案、公平性风控、评估体系、扩至200所的决策标准,至少2个备选方案,并针对危机动态调整。
Qwen3.6-Plus的交付结果:
框架完整度:把模糊需求转化为问题定义、目标分层、约束清单、预算分配、时间线、评估体系,逻辑严密、层级清晰,无口号空话。
约束平衡:800万预算一分不差,资源向县镇倾斜,6个月周期不延期,无新增编制前提下解决人员问题。
动态应对:针对舆情危机快速给出应急响应、功能调整、预算内部调剂、部署重排;针对县镇设备不足给出替代方案,不超预算、不延期、闭环解决。
扩展性设计:同步给出扩至200所的Go/No-Go硬标准、三阶段路径、成本优化机制,从架构到数据全预留接口。
第二关:工程闭环
任务:开发可运行的AI TODO Board。自然语言输入创建任务,三列看板管理状态,AI自动拆解子任务、识别优先级、提示风险。技术栈限定Next.js 15+/React+Vite、TypeScript、Tailwind CSS,测试用Vitest/Jest。
功能清单:三列看板(Todo/Doing/Done)、卡片含标题/描述/优先级/截止时间/标签/子任务/进度、拖拽状态流转、自然语言解析(提取标题/解析时间/推断优先级/生成3-5个子任务)、AI Assistant面板(拆解建议/风险提示/下一步/逾期提醒)、搜索筛选、暗色模式、精致SaaS风格、移动端基本可用。
必须输出:需求理解、实现计划、项目结构、核心代码、测试代码、修复过程、运行说明、权衡与不足。必须测试:自然语言解析、创建流程、状态切换、筛选逻辑。
Qwen3.6-Plus的交付结果:
需求拆解:将复杂功能清单转化为模块化实现路径,明确技术选型理由。
代码完整度:输出可运行项目结构,核心组件、状态管理、自然语言解析逻辑、测试用例全覆盖。
迭代修复:针对测试发现的移动端横向溢出、"明天"时间解析不稳定、Done列滚动体验差、筛选后状态切换异常等问题,逐一定位并给出修复方案。
工程思维:每个修复附带根因分析和预防策略,而非仅打补丁。
两条能力轴的交叉验证
复杂决策任务考验的是:目标理解、全链路规划、动态风险应对、多约束平衡。工程闭环任务考验的是:需求拆解、实现路径规划、阶段性决策、测试调试、问题定位、持续迭代。
前者是"想清楚",后者是"做出来"。Qwen3.6-Plus在两套任务中均展现了专业级的完成度——不是生成一堆看似合理的文字或代码,而是在真实约束条件下交付可执行、可量化、可评审的结果。
这指向一个关键判断:国产大模型的Agentic Coding能力,已经从"能对话"走向"能扛活儿"的临界点。不是替代程序员,而是在特定复杂度区间内,成为可信任的任务执行伙伴。
当然,测试也有边界。我们的任务设计有明确交付物,真实项目往往更混沌;测试环境有预设技术栈,真实选型更开放;我们给了两次迭代修复机会,真实场景可能需要更多轮。
但至少在这个复杂度水平上,Qwen3.6-Plus证明了国产模型具备接管部分开发工作流的能力基础。接下来的问题变成:这个"部分"的边界在哪里,以及人和AI如何重新分工。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.