网易首页 > 网易号 > 正文 申请入驻

Claude Opus 4.6:看起来强大,用起来还差点火候

0
分享至

该图片可能由AI生成

Reddit上关于AI的讨论总是热闹。这次的主角是Anthropic最新发布的Claude Opus 4.6,它在METR的软件任务基准测试中,50%成功率的时间跨度达到了14.5小时。

什么意思呢?通俗点说,就是这个AI现在能完成一些需要人类工程师花上大半天(约14.5小时)才能搞定的任务,而且成功率至少有50%。这个数字听起来挺唬人,图表看着也很陡峭——从几个月前的几小时,突然飙升到十几个小时,看起来像是指数级增长,甚至“超指数”增长。

问题来了:50%的成功率够用吗?

评论区吵翻了天。有人说,50%就够了,因为很多任务可以多跑几次,或者用“多数投票”的方式提高准确率。特别是在AI研发领域,只要能偶尔跑出一个突破性结果,然后人工验证一下就行。有人甚至算了笔账:50%成功率,最多也就多花一倍时间,总比人工从零开始强。

可企业级应用不这么看。一位在财富500强AI部门工作的工程师直截了当地说:如果我跟高管汇报说这个系统能用但只有50%成功率,基本不可能获批。80%?勉强有戏。99.99999%?那才叫稳妥。企业要的是可靠性,不是概率游戏。

还有个更根本的问题:METR的基准测试本身快要“饱和”了。他们最近才升级了测试任务,加入了更难的内容,结果新版本就快被攻破了。而且测试结果的误差范围大得吓人——Claude Opus 4.6的14.5小时,置信区间是6小时到98小时。这意味着它可能真的很强,也可能只是运气好。

最要命的是,80%成功率的基准测试,Claude Opus 4.6只比GPT-5.2高一点点。那条曲线看起来就没那么激动人心了。

有人在Reddit上感慨:“我LinkedIn上90%的软件工程师朋友,现在都陷入了'别抬头'(Don't Look Up)的集体否认状态。”有人已经开始用Claude做全栈开发,原本需要一年自学的东西,现在15小时搞定。也有人泼冷水:你让Claude预测关税政策可能行,让它给你投资建议或情感咨询?门都没有。

至于“持续学习”这个AI研究的终极难题,讨论里有个观点挺有意思:也许我们不需要先实现持续学习,再等AI自我改进。如果AI已经能够在上下文中适应任何场景,那就够了。自我改进的过程本身就是一种持续学习。

说到底,Claude Opus 4.6确实在某些任务上变强了,但离“全自动”还很远。它能帮你节省时间,但不能替你做决策,更不能保证不出错。这就像一个很有天赋但还不够成熟的实习生:你可以放心交给他一些任务,但还得时不时盯着点。

也许这才是当下AI的真实状态:数字很漂亮,实用性还在路上。

简评:

所有关于AI能力的争论,本质上都是同一个问题的变体:我们到底需要的是“偶尔惊艳”还是“持续可靠”?

50%成功率放在实验室里叫“重大突破”,放在生产线上叫“质量事故”。这不是AI的问题,是我们对AI的期待出了偏差。

曲线图上的指数增长确实让人心跳加速,但老板们看的从来不是曲线,是底线。技术圈兴奋的是“能做到什么”,决策层紧张的是“会出什么错”。

说白了,当下的AI就像一个智商超高但情商存疑的天才少年:解题能力惊人,但你敢把公司的命运交给他吗?

真正的分水岭不是AI变得多聪明,而是它什么时候变得“无聊”——无聊到像水电一样稳定,像计算器一样可靠。在那一天到来之前,所有的惊叹号后面,都得跟一个问号。

www.reddit.com/r/singularity/comments/1ra4lrn/claude_opus_46_is_going_exponential_on_metrs

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
双胞胎家庭得有多细节? 网友: 家里只吃水煮蛋,因为煎蛋不一样

双胞胎家庭得有多细节? 网友: 家里只吃水煮蛋,因为煎蛋不一样

另子维爱读史
2026-02-14 21:44:13
国行 iPhone,开启 AI 设置界面!

国行 iPhone,开启 AI 设置界面!

花果科技
2026-02-19 22:00:48
日本的苦日子,还在后面

日本的苦日子,还在后面

六爷阿旦
2026-01-20 17:07:06
为什么春天回温会感到恐惧?网友:抑郁多发于春天,春天万物复苏

为什么春天回温会感到恐惧?网友:抑郁多发于春天,春天万物复苏

另子维爱读史
2026-02-21 21:53:49
新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

仙仙先生
2026-01-30 09:35:22
3999元!又一款 Ultra新品官宣:正式上市

3999元!又一款 Ultra新品官宣:正式上市

高科技爱好者
2026-02-20 22:59:06
燃油MPV硬刚电动潮!日产君爵入局25-35万市场家庭用户悄悄改主意

燃油MPV硬刚电动潮!日产君爵入局25-35万市场家庭用户悄悄改主意

沙雕小琳琳
2026-02-19 23:46:44
快船交易并非全亏!场均22+5+2断,小黑豹成未来基石,伦纳德可惜

快船交易并非全亏!场均22+5+2断,小黑豹成未来基石,伦纳德可惜

你的篮球频道
2026-02-22 08:44:23
内外大升级 全新日产轩逸将于2月24日上市

内外大升级 全新日产轩逸将于2月24日上市

太平洋汽车
2026-02-21 13:11:08
五常要加位到六常?中方赴新德里面谈,印度抛出个“不情之请”

五常要加位到六常?中方赴新德里面谈,印度抛出个“不情之请”

百科密码
2026-02-22 16:29:26
大年初四,巴拿马港口,李嘉诚出了一招,中国对美最后测试?

大年初四,巴拿马港口,李嘉诚出了一招,中国对美最后测试?

月亮的麦片
2026-02-21 19:05:57
天然“化栓王”被发现!隔天吃一点,血管干净了,血栓绕道走

天然“化栓王”被发现!隔天吃一点,血管干净了,血栓绕道走

江江食研社
2026-02-04 07:30:11
世界5大禁片,全看完的人,心理素质堪比特种兵

世界5大禁片,全看完的人,心理素质堪比特种兵

i书与房
2026-01-26 15:07:05
河北多个高速站口临时关闭!

河北多个高速站口临时关闭!

爱上大邢台
2026-02-22 14:54:49
旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

旦增,被双开!他理想信仰崩塌,求神拜佛搞迷信活动,顶风违纪,收受巨额财物,半年前主动投案

每日经济新闻
2025-10-09 15:44:18
利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

另子维爱读史
2026-01-13 21:51:51
冬奥会|22日看点:最后一个冲金点!中国军团能否创境外最佳战绩?

冬奥会|22日看点:最后一个冲金点!中国军团能否创境外最佳战绩?

新华社
2026-02-22 04:45:05
A股:周日下午传来2个特大级消息!下周二或将迎来更大级别大行情?

A股:周日下午传来2个特大级消息!下周二或将迎来更大级别大行情?

股市皆大事
2026-02-22 16:14:02
广汽集团11月销量遇冷 传祺销量暴跌42%

广汽集团11月销量遇冷 传祺销量暴跌42%

猫头鹰车志
2025-12-10 11:17:11
已经宣布独立建国,但中国和联合国均不承认的10个国家!

已经宣布独立建国,但中国和联合国均不承认的10个国家!

始于初见见
2026-02-22 13:52:24
2026-02-22 17:55:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
291文章数 6417关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

7名中国游客遗体从贝加尔湖被打捞出 俄罗斯外长致哀

头条要闻

7名中国游客遗体从贝加尔湖被打捞出 俄罗斯外长致哀

体育要闻

75673人见证!迈阿密0-3:梅西孙兴慜过招

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

时尚
本地
手机
房产
教育

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

三星Galaxy AI将升级为多代理生态系统 深度整合Perplexity AI

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

教育要闻

孩子“爱打游戏”?也可能是关键天赋信号

无障碍浏览 进入关怀版