Anthropic刚刚发布了Claude Opus 4.8,一家AI实验室如此坦诚地称之为“温和但可感知的提升”,实在少见。我翻遍更新公告,发现这次真正的卖点不是能力飞升,而是诚实。
用户会发现Opus 4.8相比前代有“温和但可感知的提升”,并且Anthropic还补了一句:还有很多工作要做,正在开发能以更低成本提供Opus类似能力的模型。这种直白的措辞,在竞相堆形容词的AI发布里,简直是清流。如果你留意,诚实正是贯穿这次更新的主题。
![]()
公告里另一段话说得直接:Opus 4.8最显著的改进之一是诚实。Anthropic一直在训练模型避免做出无法支持的断言,但AI模型普遍有个毛病——证据单薄时仍会自信地宣称自己取得了进展。早期测试者反馈,4.8更倾向于标注自己的不确定性,不会轻易给出没有根据的说法。评估也佐证了这一点:Opus 4.8在忽略自己代码缺陷方面出错的概率,比前代低了大约四分之三。
相关的系统卡显示,Claude Opus 4.8在六个模型的对比中,所有基准测试的事实幻觉“错误率”都是最低的。但令人玩味的是,达成这一点的途径并不是答对更多题目,而是通过拒绝回答自己不确定的问题。换句话说,宁可不答,也不瞎编。
基础参数几乎没有变化:价格与4.5/4.6/4.7持平,输入每百万tokens 5美元,输出每百万tokens 25美元。“快速模式”的价格是标准模式的两倍,但相比过去的快速模式(4.6/4.7版本高达30美元/150美元)大幅下降。这个快速模式目前仅限研究预览的合作机构,需联系客户经理申请。知识截止日期和训练数据截止都是2026年1月,和4.7一样。上下文窗口依旧是100万tokens,最大输出128,000 tokens。
真正让我觉得有搞头的是一个细节:Opus 4.8支持在对话中途插入系统消息。你可以在一条长对话中的用户回合之后,追加`role: "system"`的指令,而不必重新发送整段系统提示词。这意味着在对话后半程,能保留先前回合的提示词缓存,减少代理工作流里的输入成本。Anthropic的Python SDK也同步更新了这一能力。中途调整系统提示,听起来很强大,我原以为会与我库里的单系统提示抽象相冲突,结果我自己的库刚好在近期重设计后可以支持。
在参数不涨、价格不降、性能不炸的节奏里,Anthropic扔出了这样一次更新。没画饼,没放卫星,只是让模型更懂得“不确定就说不知道”,顺便优化了开发者的操控力。一个以诚实为升级点的模型迭代,比那些又一串跑分数字的发布,值得多琢磨一会儿。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.