网易首页 > 网易号 > 正文 申请入驻

模型出了个旋钮,我的日常被改变了?

0
分享至

5月28日,Anthropic发布了Opus 4.8。照例,基准测试表格满天飞——SWE-Bench Pro上超越前代,等等。每个人都截图转发。

但我却被那些测试分数旁边的一个小玩意儿绊住了:一个努力度旋钮。


这篇帖子不是官宣,它是个问题。所以打了#讨论 的标签。

先明确一下到底改了什么。和Opus 4.8一起落地的东西包括:

努力度控制被搬进了用户界面。它之前是个API参数,只有开发者才会碰的开关。现在它直接躺在claude.ai和Cowork的模型选择器旁边。档位有:低、中、高、超高(Claude Code里叫xhigh,claude.ai里叫“额外”),以及最大。

默认值也变了。4.7时默认是超高,4.8改成了高。Anthropic的说法是:在编程任务上,4.8用高努力度消耗的token数和4.7默认差不多,但在每个编程基准上的得分都更高。所以这是一种“少琢磨、多交付”式的调校。

诚实度方面也有一项声明。根据Anthropic自己的评估,4.8对自己代码中存在的缺陷视而不见的概率大约是之前的四分之一。早期测试者还反馈,它更频繁地标记自己的不确定性,并且更少给出没有依据的主张。

动态工作流作为研究预览推出。Claude Code现在可以在一个会话里并行运行数百个子代理;据说能处理横跨几十万行代码的基础级迁移,从启动到合并,以现有测试套件为通过标准。(企业/团队/最高配计划可用。)

快速模式的速度是原来的2.5倍,而且费用比前代模型便宜了三分之二。价格方面,和4.7持平。

我亲眼见识了诚实度那部分:它先是自信地指出一个具体违规,并给出行号,接着又自我否定,重新执行实际检查,并在同一轮对话中纠正了编造出来的行号。这一点比任何基准测试的柱状图都重要。

好了,以上就是功能清单。现在说正事。

真正的问题是:这会改变我们的日常工作节奏吗?

有一个说法是这样的:你没办法同时优化token消耗、速度和质量。这是个三角,拽住一个角,另外两个就会变形。

而Opus 4.8做的事,是把这颗三角形的选择权从模型手里拿走,塞到你手里。过去那种“自适应思考”套路说的是“模型自己决定该琢磨多久”,而现在的努力度旋钮在说:“不,你告诉我。”

到这里,我的想法被撕成了两半。

一方面,这确实是一次工作流上的实质变化。如今每项任务之前都多了一个微小决策——“这事配高还是超高?”把一个困难的重构任务拧到最大,丢到后台异步去跑,和为了改个拼写错误而拨到低档,完全是两个世界。对自律的使用者来说,这从速率限制管理到输出质量,都会带来真实的差异。

另一方面:到底有多少人会真的去碰那个旋钮?大多数人会直接留在默认档。坦白讲,一位测试者提醒过,在动态、循环任务里把设置拉到最高,token消耗会“吓人地夸张”。所以要是用法不当,这功能就不是功能,而是个陷阱。

还有一点:努力度旋钮也救不了一个糟糕的提示词。一个模模糊糊的输入,就算拧到最大,吐出来的东西照样靠不住。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳“卷尺哥”:1000多次“找茬”之后

深圳“卷尺哥”:1000多次“找茬”之后

新京报
2026-06-02 08:01:43
为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

为什么说闲鱼是中国最大的黑市?网友:我直接给跪了!

另子维爱读史
2026-06-02 10:51:07
杨迪回应爬山过程中朋友被救护车拉走,称“自己也快到极限”,提醒各位网友→

杨迪回应爬山过程中朋友被救护车拉走,称“自己也快到极限”,提醒各位网友→

封面新闻
2026-06-02 09:34:51
“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

“崩老头”全链调查:1500元可购全套工具,视频、语音均能伪造身份

大象新闻
2026-06-01 16:54:53
还以为搁置了!“南天门计划”突然上新,央视这次放的不是科幻

还以为搁置了!“南天门计划”突然上新,央视这次放的不是科幻

闻识
2026-06-01 21:41:33
台岛以东执法巡查的三个“历史首次”

台岛以东执法巡查的三个“历史首次”

上观新闻
2026-06-02 10:44:03
吃完嫩的吃老的,山西儿媳出轨公公10年,亲自给丈夫生下一个妹妹

吃完嫩的吃老的,山西儿媳出轨公公10年,亲自给丈夫生下一个妹妹

莫地方
2026-06-02 00:10:26
以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

环球网资讯
2026-06-02 07:03:18
深圳又一知名商场宣布停业!开业26年,曾是一代人的青春记忆

深圳又一知名商场宣布停业!开业26年,曾是一代人的青春记忆

阅微札记
2026-06-01 22:22:11
211院校降为普通本科!

211院校降为普通本科!

老吕教你考MBA
2026-06-02 11:57:50
乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

乌克兰战场惊现“人形机器人”, 美企:本来就是为打仗而生

上观新闻
2026-06-02 12:23:28
知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

知情人士:特朗普在和内塔尼亚胡通话中,称对方“疯了”,还说“如果不是我,你早就进监狱了,我一直在帮你”

鲁中晨报
2026-06-02 07:15:05
别摘、别碰!全株有毒,深圳正值盛放期!有女子拍照后中毒,只因这动作

别摘、别碰!全株有毒,深圳正值盛放期!有女子拍照后中毒,只因这动作

南方都市报
2026-06-02 08:43:36
网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

网曝一英国网红打赌,24小时拿下中国女生,结果让国人直呼丢人

小徐讲八卦
2026-06-02 09:17:26
“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

北纬的咖啡豆
2026-06-01 19:33:09
蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

蒋中正亲笔书写的任命状冲上热议!书法的好坏,永远意见不一?

书画相约
2026-06-01 07:23:51
马斯克亲口承认,要不是自己儿子做了变性手术,现在美国总统也不会是特朗普

马斯克亲口承认,要不是自己儿子做了变性手术,现在美国总统也不会是特朗普

不掉线电波
2026-06-01 20:02:08
6月2日,人社部关于2026年调整退休人员基本养老金通知公布了吗?

6月2日,人社部关于2026年调整退休人员基本养老金通知公布了吗?

社保小达人
2026-06-02 12:05:21
沈南鹏,捐3亿

沈南鹏,捐3亿

新京报
2026-06-01 21:02:19
太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

太讽刺了!国内的职场环境,不像公司,像朝廷,让人一言难尽…

慧翔百科
2026-06-02 08:40:47
2026-06-02 14:00:49
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
4344文章数 55关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
游戏
房产
手机
公开课

亲子要闻

今年育儿补贴补助资金999亿元已下达,较上年增长10.6%

靠大尺度MOD火了!游戏官方:成人内容越多越好

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

手机要闻

618 10款机型大幅跳水:苹果、华为、小米都破底价,有你看中的吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版