网易首页 > 网易号 > 正文 申请入驻

今天凌晨,Claude Opus 4.8 上线,融资 650 亿美金,但更强的还在后面

0
分享至

昨晚,Anthropic 发布了最新一代模型 Claude Opus 4.8。

圈子里照例又是一波跑分截图刷屏,Opus 4.8 各种领先,编码能力全面霸榜。


但说实话,我现在对跑分已经无感了,几乎每家模型发布时都会拿跑分说事。

我觉得真正值得关注的,是两个 0%。

一个是「谎报率」,就是模型处理数据出了问题,但它装作没事跟你说搞定了。

Opus 4.5 这个数字是 0.40,Opus 4.7 降到 0.25,到了 4.8 直接归零。

另一个是「偷懒调查率」,就是遇到需要深挖的问题,模型敷衍了事给你一个似是而非的答案。

在这个指标上,Opus 4.7 还有 25% 的概率偷懒,而 Opus 4.8 同样是 0%。

两个 0%,两个历史首次。

如果你用 AI 写过代码、做过数据分析、搞过一些研究,就知道最怕的不是它能力不够,而是它能力不够还装出一副自己很厉害的样子。

Opus 4.8 解决的就是这个问题,它不再假装什么都会,遇到不确定的东西时,也会主动告诉你「这里我没把握」。

在我看来,这个迭代比跑分高 10 个百分点重要得多。

那么,Opus 4.8 和前代的 4.6、4.7 到底有什么本质区别?

经过大概体验后,我把几个核心差异捋一下。

第一,诚实度和可靠性。

我自己目前用的是 Opus 4.6,也是我认为在内容创作上表现最好的模型,没有之一。

在 4.6 版本里,Claude 在诚实性上虽然已经比同行好,但仍然有不少「过度自信」的问题。

后来的 4.7 做了改善,到了 4.8 则彻底解决了。

说白了,4.6 像一个能力不错但爱面子的员工,4.7 像一个严谨且能力很强的员工,4.8 像一个真正靠谱的高级工程师。

第二,效率。

同样的任务,4.8 比 4.7 少用 15% 的步骤,少输出 35% 的 token。

对开发者来说,token 就是成本。做得更好还更省,这才是真正的代际进步。

第三,编码能力的跃升幅度。

这么说吧,4.6 到 4.7 的编码提升是渐进式的,4.7 到 4.8 的提升是跨越式的。

在一些极端测试里,比如给你一个编译好的二进制文件,不准反编译,让模型从零重建源代码。4.8 在 1M token 预算下的表现,4.7 要 5M 才能追上。

第四,Agent 能力本质上的不同。

4.6 的 Agent 能力还处于「能跑但不够稳」的阶段。4.7 稳定性提升了,但遇到复杂情况还是容易走偏。

4.8 有一个明显的变化,它开始有了真正的判断力。

官方放了一个案例,开发者在用 Claude Code 迁移代码,然后中途出去了,Claude 在后台自己跑。

跑到一半代码提交被拒绝了,因为同事在这期间也提交了一个紧急修复。Claude 通知开发者,开发者随口说「直接强制覆盖就行」。

但是,Claude 拒绝了。

它判断出强制覆盖会丢掉同事刚提交的紧急修复,于是自己把两边的改动合并好,保证代码一致、提交历史干净,然后推送。

这不是简单的「执行指令」,这是在该拒绝的时候拒绝。这是 Agent 从工具进化到协作者的关键一步。

这次发布的新能力里还有一个我觉得很强的功能,名字叫「Dynamic Workflows」。

简单说,就是 Claude 接到一个大任务后自己写脚本并分配给很多并行的 子 Agent 去做。

做完之后,再互相检查、互相挑刺,最后汇总结果交给你。

这个功能目前还是预览状态,而且 token 消耗远高于普通对话,不适合随便拿来用。

不过我觉得,这个能力会成为 Claude Code 未来的杀手锏。

我再说个有意思的事。

4.8 上线后不久,有人通过 API 调用问它「你是谁」,它有时候会说自己是 Qwen,有时候说自己是 DeepSeek。

技术社区对此的猜测是,蒸馏。

也就是说,Opus 4.8 的训练过程中可能用了其他模型的输出数据做知识蒸馏。

这个事本身不影响能力,但挺值得玩味。

AI 模型之间的知识流动比我们想象的复杂,你用的可能不是一个纯血模型,而是一个融合了多家智慧的混合体。

最后,总结一下。

首先,Opus 4.8 第一次让 AI 模型做到了诚实。

在所有前沿模型里,它是第一个在可靠性指标上做到零缺陷的。这对企业用户来说,比性能高 5% 重要十倍。

二是效率。

更强的同时更省 token,这直接影响成本结构。虽然依旧不便宜,但是相较于前代能力提升的同时价格维持一致。

三是 Agent 形态的进化。

从单次回答到长任务执行,再到多 Agent 并行协作,Claude 的产品形态已经不再是一个聊天窗口,而是在变成一个工作系统。

此外,Anthropic 同一天还宣布了 650 亿美元融资,估值 9650 亿,逼近万亿美金。

接下来几周,Anthropic 还会放出 Claude Mythos,这头猛兽出来时不知道又会引发什么超级进化。

按照目前的信息,Mythos 是比 Opus 更高一级的模型。有人猜测,Opus 4.8 本身就是 Mythos 的蒸馏版。

如果真是这样,那 Mythos 正式上线的那天,才是真正的分水岭的开始。

对此,我十分期待。

················· 唐韧出品 ·················

安可时刻

我已经到上海了,明后两天举办最新一期 AI 个体户训练营。

下午先去见昨天文章里说的那个人,很多人说他现在已经不是普通人了。但我觉得,他依旧是普通人的代表。

没背景、靠自己、出人头地,算是完成了阶级跨越。

就想我昨天说的,做资源、信息、能力的整合者,这就是他成功的秘诀。

不止是他,我从很多和他类似的人身上都看到了一个共性,快速拥抱变化。

无一例外,这些人基本都在共同拥抱 AI。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个家庭,父母越尊重孩子,孩子越怕苦怕累、脾气大、事事依赖…

一个家庭,父母越尊重孩子,孩子越怕苦怕累、脾气大、事事依赖…

新东方家庭教育
2026-06-03 16:16:08
足坛一夜动态:荷兰0-1爆冷,意大利1-0险胜,波兰补时绝平

足坛一夜动态:荷兰0-1爆冷,意大利1-0险胜,波兰补时绝平

足球狗说
2026-06-04 04:50:04
欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

欺人太甚!一家长因孩子备考,请求邻居约束噪音,对方回复没办法

火山詩话
2026-06-03 11:06:12
陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

陕西一公司半夜通知“全员放假”,一夜搬空,领导失联,200多名员工数百万工资被拖欠,员工:连维权都不知怎么办

大象新闻
2026-06-03 16:47:13
杀妻子全家逃亡30年,霸占独居女人强奸其儿媳,深夜被锤杀成枯骨

杀妻子全家逃亡30年,霸占独居女人强奸其儿媳,深夜被锤杀成枯骨

易玄
2026-06-03 18:16:14
ESPN专访文班:少林特训有点被夸大 波波维奇始终是我们的掌舵人

ESPN专访文班:少林特训有点被夸大 波波维奇始终是我们的掌舵人

罗说NBA
2026-06-04 06:07:49
如果马寅初没有提出人口论,没有实施计划生育,如今我国会怎样?

如果马寅初没有提出人口论,没有实施计划生育,如今我国会怎样?

史之铭
2026-04-29 00:48:26
称逛山姆是托举后续!宝妈痛哭道歉,全家信息被扒,孩子不敢上学

称逛山姆是托举后续!宝妈痛哭道歉,全家信息被扒,孩子不敢上学

离离言几许
2026-06-02 18:11:45
4天期限已到,中方不忍了!我大使敲警钟,欺负中国人后果很严重

4天期限已到,中方不忍了!我大使敲警钟,欺负中国人后果很严重

冷眼看尽世间繁华
2026-06-03 20:01:43
一旦美国关闭GPS导航,全球导弹将会变“瞎子”,只有2国能够幸免

一旦美国关闭GPS导航,全球导弹将会变“瞎子”,只有2国能够幸免

深析古今
2026-06-03 16:16:24
正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

正当防卫被判死刑,枪决前6分钟被最高法紧急叫停,董伟案始末

易玄
2026-05-25 01:45:09
纳达尔:打破我在法网的纪录,比打破德约的24冠更难

纳达尔:打破我在法网的纪录,比打破德约的24冠更难

懂球帝
2026-06-03 23:45:34
禁止所有中国外交官入境,这个国家比美国还嚣张?

禁止所有中国外交官入境,这个国家比美国还嚣张?

福建睿平
2026-06-03 14:30:38
43岁香港女星在中山买房,晒房产证直呼划算,四房两厅不到200万

43岁香港女星在中山买房,晒房产证直呼划算,四房两厅不到200万

青梅侃史啊
2026-05-28 07:50:02
中纪委再划红线!党员干部“八小时外”100条禁令

中纪委再划红线!党员干部“八小时外”100条禁令

微法官
2026-06-04 00:07:22
中方呼吁罗马尼亚无人机事件有关方保持冷静克制

中方呼吁罗马尼亚无人机事件有关方保持冷静克制

环球网资讯
2026-06-02 09:23:09
曝德甲队欲签19岁王钰栋!看重其商业价值,或外租奥甲、比甲锻炼

曝德甲队欲签19岁王钰栋!看重其商业价值,或外租奥甲、比甲锻炼

我爱英超
2026-06-04 07:22:42
希音法国再受2250万欧元重罚  希音官方霸气回应:不成比例且具有歧视性 对两项提出全面异议

希音法国再受2250万欧元重罚 希音官方霸气回应:不成比例且具有歧视性 对两项提出全面异议

新浪财经
2026-06-03 23:04:14
CBA最新消息!北控男篮主帅确定,杜锋完成签约

CBA最新消息!北控男篮主帅确定,杜锋完成签约

体坛瞎白话
2026-06-03 16:00:25
雷霆或有大交易!两大球星下家赔率:切特加盟雄鹿+杰威去篮网?

雷霆或有大交易!两大球星下家赔率:切特加盟雄鹿+杰威去篮网?

罗说NBA
2026-06-04 07:12:29
2026-06-04 12:32:49
唐韧 incentive-icons
唐韧
用产品思维解决难题
1485文章数 2042关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

头条要闻

江苏一单亲妈妈和小12岁男子姐弟恋 怀孕后男友玩失联

体育要闻

王俊杰11前板成第一尖刀 媒体人:独一档

娱乐要闻

奚梦瑶头纱上的古董发卡也是四太的

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

健康
本地
数码
教育
时尚

违规干细胞抗衰美容,为何肆无忌惮

本地新闻

用杨柳青年画的方式,打开天津

数码要闻

MONTECH迎来十周年,多款机箱新品台北现身

教育要闻

山东春季高考和夏季高考成绩6月25日15:00后公布

粗腿宽肩,正在成为中女审美新风向

无障碍浏览 进入关怀版