双线实测：国产大模型Agent扛活儿能力到哪一步了|代码|编程|工作流|自然语言

双线实测：国产大模型Agent扛活儿能力到哪一步了

分享至

全球编程模型榜首换人了。4月7日，阿里云通义千问Qwen3.6-Plus上线，在Terminal-Bench 2.0测试中超越Claude Opus 4.5。但Benchmark分数是一回事，真实项目里能不能扛活儿是另一回事。

我们设计了两套真实任务，测它的"决策力"和"执行力"边界。

第一关：复杂决策

任务背景：某市教育局要在6个月内，给20所公立中学部署"AI学习助手"。约束条件堆成山——城区8所、县镇12所，数字化基础悬殊；教师怕增加负担；家长担心隐私和沉迷；教育局要求不能扩大教育差距；下学期必须上线；不能新增编制；效果好2年内扩到200所。

第2个月还突发两起危机：媒体曝光某校学生过度依赖AI写作业，3所县镇学校反馈网络终端不足、使用率远低于城区。

要求输出：问题定义、目标拆解、6个月方案、公平性风控、评估体系、扩至200所的决策标准，至少2个备选方案，并针对危机动态调整。

Qwen3.6-Plus的交付结果：

框架完整度：把模糊需求转化为问题定义、目标分层、约束清单、预算分配、时间线、评估体系，逻辑严密、层级清晰，无口号空话。

约束平衡：800万预算一分不差，资源向县镇倾斜，6个月周期不延期，无新增编制前提下解决人员问题。

动态应对：针对舆情危机快速给出应急响应、功能调整、预算内部调剂、部署重排；针对县镇设备不足给出替代方案，不超预算、不延期、闭环解决。

扩展性设计：同步给出扩至200所的Go/No-Go硬标准、三阶段路径、成本优化机制，从架构到数据全预留接口。

第二关：工程闭环

任务：开发可运行的AI TODO Board。自然语言输入创建任务，三列看板管理状态，AI自动拆解子任务、识别优先级、提示风险。技术栈限定Next.js 15+/React+Vite、TypeScript、Tailwind CSS，测试用Vitest/Jest。

功能清单：三列看板（Todo/Doing/Done）、卡片含标题/描述/优先级/截止时间/标签/子任务/进度、拖拽状态流转、自然语言解析（提取标题/解析时间/推断优先级/生成3-5个子任务）、AI Assistant面板（拆解建议/风险提示/下一步/逾期提醒）、搜索筛选、暗色模式、精致SaaS风格、移动端基本可用。

必须输出：需求理解、实现计划、项目结构、核心代码、测试代码、修复过程、运行说明、权衡与不足。必须测试：自然语言解析、创建流程、状态切换、筛选逻辑。

Qwen3.6-Plus的交付结果：

需求拆解：将复杂功能清单转化为模块化实现路径，明确技术选型理由。

代码完整度：输出可运行项目结构，核心组件、状态管理、自然语言解析逻辑、测试用例全覆盖。

迭代修复：针对测试发现的移动端横向溢出、"明天"时间解析不稳定、Done列滚动体验差、筛选后状态切换异常等问题，逐一定位并给出修复方案。

工程思维：每个修复附带根因分析和预防策略，而非仅打补丁。

两条能力轴的交叉验证

复杂决策任务考验的是：目标理解、全链路规划、动态风险应对、多约束平衡。工程闭环任务考验的是：需求拆解、实现路径规划、阶段性决策、测试调试、问题定位、持续迭代。

前者是"想清楚"，后者是"做出来"。Qwen3.6-Plus在两套任务中均展现了专业级的完成度——不是生成一堆看似合理的文字或代码，而是在真实约束条件下交付可执行、可量化、可评审的结果。

这指向一个关键判断：国产大模型的Agentic Coding能力，已经从"能对话"走向"能扛活儿"的临界点。不是替代程序员，而是在特定复杂度区间内，成为可信任的任务执行伙伴。

当然，测试也有边界。我们的任务设计有明确交付物，真实项目往往更混沌；测试环境有预设技术栈，真实选型更开放；我们给了两次迭代修复机会，真实场景可能需要更多轮。

但至少在这个复杂度水平上，Qwen3.6-Plus证明了国产模型具备接管部分开发工作流的能力基础。接下来的问题变成：这个"部分"的边界在哪里，以及人和AI如何重新分工。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.