完成 300 亿美元融资后,Anthropic 交出了第一份 AI 答卷。就在刚刚,Claude Sonnet 4.6 正式发布,定位是「史上最强 Sonnet」。
编程、计算机操作、长上下文推理、智能体规划,全面升级。价格没变,还是每百万 token 3 美元输入/15 美元输出,但性能直接逼近 Opus 级别。
在与 Opus 4.5 的对比测试里,用户有 59% 的时间更偏好 Sonnet 4.6。理由也很实在:过度工程化更少、幻觉更少、多步骤任务执行更稳。
计算机操作能力是这次升级的重头戏。
在 OSWorld 基准测试上,Sonnet 系列过去 16 个月持续进步,现在处理复杂电子表格、填写多步骤网页表单已接近人类水平。
这个能力戳中的是一个真实痛点:很多企业的老旧软件没有现代 API 接口,过去只能专门开发连接器,现在模型直接像人一样看屏幕、点鼠标就行了,省掉了一大截工程成本。
顺带一提,Excel 中的 Claude 插件这次也同步升级,新增了 MCP 连接器支持,对金融从业者来说,这个更新很实用。
Sonnet 4.6 另一个亮点是支持 100 万 token 超大上下文,足以在一次请求里塞进完整代码库、数十篇论文或一堆合同。
在 Vending-Bench Arena 这个模拟企业运营的评估里,Sonnet 4.6 摸索出一套有意思的策略:前期大举投资产能,最后阶段猛转盈利导向,靠这个转折时机甩开其他模型。支撑这套打法的,正是它的长期规划能力。
对普通用户来说,Free 和 Pro 方案的默认模型已经切换为 Sonnet 4.6,claude.ai 和 Claude Cowork 同步更新。
开发者方面,API 模型标识是 claude-sonnet-4-6,支持自适应思考、扩展思考,上下文压缩功能可以在对话快撑爆上下文时自动总结旧内容,省 token 又省心。
✊ 而就在 Sonnet 4.6 发布的同期,马斯克旗下 xAI 的 Grok 4.20 测试版也正式上线了 grok.com。
Grok 4.20 支持并行调度 4 个专业智能体——Grok、Harper、Benjamin、Lucas——协同执行任务。然而整体口碑两极分化严重,且过往预期拔得太高,导致不少用户期望落空,差评偏多。
后续马斯克罕见连发多条推文灭火「救场」。他解释称,目前的 Grok 4.20 只是参数量 500B 的小型基础模型,尚处公测阶段。他还强调,Grok 4.20 的底层架构具备每周自我迭代的能力,递归式智能增长空间很大。
按他的说法,公测结束后,Grok 4.20 的智能和速度将比 Grok 4 提升约一个数量级。但这个承诺能否兑现,只能说拭目以待吧。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.