Claude 更新了
凌晨,Anthropic 把旗舰模型 Opus 4.8 发布
从官方的表述上来说,这是一个基于 4.7 的常规升级:跑分平稳上行、Agent 能力加强,价格不变,今天可用
![]()
我简单试了试,中文分词还是很奇怪,缺如官方所说:常规升级
然后:Opus 4.6 被下了 ╮(╯▽╰)╭
随着模型升级,还有三个改动:
Claude 网页版上多了一个控制 Claude Effort 的开关,能改变思考强度
Claude Code 新加了 dynamic workflows,能一口气拉起几百个子 Agent 一起干活
Opus 4.8 的 fast 模式,2.5 倍速跑,价格比上一代 Fast 便宜了三分之二
加量不加价
Opus 4.8 的价格与 4.7 一致
常规调用还是每百万 input token 5 美元,output token 25 美元,跟 4.7 完全一样。API 里的模型名是 claude-opus-4-8,今天起全平台都能调
![]()
跑分如下
对此,Anthropic 自己给了对比,Opus 4.8 在大多数项目上领先 4.7,也领先了 GPT-5.5 和 Gemini 3.1 Pro
![]()
GPT-5.5 赢的那个栏目,需要配合 Codex CLI
在编程任务 SWE-Bench Pro 上,Opus 4.8 拿了 69.2%,4.7 是 64.3%。多学科推理的 Humanity's Last Exam,不带工具 49.8%,带工具 57.9%,两档都比 4.7 高。电脑操作的 OSWorld-Verified 到了 83.4%,知识工作的 GDPval-AA 拿了 1890 分,4.7 是 1753
终端编程 Terminal-Bench 2.1 这一项,Opus 4.8 是 74.6%,GPT-5.5 报的是 78.2%。这里有个口径要交代,跑分用的是 Terminus-2 公开测试框架,GPT-5.5 换成自家 Codex CLI 框架报出来是 83.4%。OSWorld 这次 Anthropic 改了测法,把 4.7 的分回填成了 82.3%,更贴近真实表现。金融分析 Finance Agent v2 上 Opus 4.8 是 53.9%
主打诚实
对于 Opus 4.8,Anthropic 专门重点强调了:这孩子主打一个实诚,在 Agent 里不会瞎汇报(比如没干完活,说自己干完了)
按官方评测,Opus 4.8 尝试蒙混过关的概率,只有 4.7 的 1/4,它更愿意主动标出自己拿不准的地方,少了凭空断言。而在「错误对齐行为」这项打分上,Opus 4.8 几乎贴到了 Mythos Preview,明显好于 Opus 4.7 和 Sonnet 4.6 都明显更高
![]()
越矮越好,这次 Opus 蹲到了 Mythos 边上
按照 Anthropic 对齐团队的判断,Opus 4.8 在「支持用户自主、为用户最大利益行事」这类亲社会特质上达到了新高
按周的活按天干
跟模型一起发的 dynamic workflows,这是 Claude Code 里的新东西,可以理解为「赛博包工头」
![]()
包工头 Claude,带着一群 Claude 干活
dynamic workflows 擅长做的,是先按你的需求把任务拆开,铺成几十上百个并行的子 Agent,每个结果先验证再汇总,最后给你一个统一答复。比如去处理那些又老又乱的屎山代码,或者跨服务器去找几百个文件
在运行的过程中,它还会派出对抗性的 Agent,专门去试着推翻已有结论,一直迭代到答案收敛
正如上面的图片,你能看到每个子 Agent 用的是所调用的模型(Opus 4.8,挂着 1M context 的上下文),token 用量、调了几次工具、花了多少秒...各类信息,同时也能进度边跑边存,中途断了能从断点接着跑,不用从头来
作为实例,Jarred Sumner 用 dynamic workflows 把 Bun 从 Zig 移植到了 Rust,现有测试套件 99.8% 通过,大约 75 万行 Rust 代码,从第一次提交到合并,11 天
具体怎么干的。一个 workflow 先给 Zig 代码里每个结构体字段,都映射出对应的 Rust 生命周期。下一个 workflow 把每个 .rs 文件写成对应 .zig 文件的等价移植,几百个 Agent 并行,每个文件配两个审查者。然后一个修复循环驱动着构建和测试,跑到两边都干净为止。移植落地后,一个过夜的 workflow 又去处理多余的数据拷贝,每处都开了一个 PR 等人做最终 review
dynamic workflows 今天起以研究预览的形式上线,覆盖 Claude Code 的命令行、桌面端和 VS Code 插件,开放给 Max、Team 和 Enterprise(管理员开启后)方案,也上了 Claude API 以及 Amazon Bedrock、Vertex AI、Microsoft Foundry
自定义 effort
在之前 opus4.7 的时候,网页版的 Claude 是不能够选 effort 的,只有一个 adaptive thinking 的开关,而在这次的更新中,你是能手动决定这个数值的,默认是 high
![]()
回到最开始的图,看右侧
还有几件小事
除了模型本身,这次还有两个改动
Messages API 现在允许在 messages 数组里塞 system 条目了。你可以在任务跑到一半的时候更新 Claude 的指令,在不打断 prompt 缓存的前提下,更新它的权限、token 预算或者环境上下文
Opus 4.8 的 fast 模式(2.5x 速度)降价了,之前 4.7 的时候是 $30/$150,现在是 $10/$50,单位是每百万 token
Mythos 在路上
在官方公告的最后,还提到:Mythos 要来了
这是 Anthropic 家目前最牛逼的模型,目前只给少数几家厂商在内部使用。在过去的一个月中,这个模型帮助从各种知名软件软件里,找出了一万多个高危或严重漏洞
![]()
一万个漏洞找出来了,补丁还在后面排队
Anthropic 还在为这个模型设计护栏,预计未来几周内,就能把 Mythos 级别的模型带给所有客户
另一方面,Anthropic 还在开发并放出一批能力接近 Opus、但成本更低的模型
在哪儿能用上
Opus 4.8 今天全平台可用,价格和 4.7 一致
官方公告:anthropic.com/news/claude-opus-4-8
Dynamic workflows:claude.com/blog/introducing-dynamic-workflows-in-claude-code
Project Glasswing / Mythos:anthropic.com/research/glasswing-initial-update
API 模型名:claude-opus-4-8
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.