网易首页 > 网易号 > 正文 申请入驻

贴脸嘲讽ChatGPT后,这家公司又发了个最强模型。

0
分享至


谁能想到呢,本周的硅谷AI圈,已经演变到了大家喜闻乐见的互喷环节。

起因是周三晚上,Anthropic在他们美国人的“春晚”上,放了几条广告,明牌嘲讽OpenAI在ChatGPT里塞广告,直接把讽刺都打到公屏上了:广告在入侵AI,但不会出现在 Claude。


奥特曼当场就坐不住了,凌晨六点在X上敲了一篇长文,说Anthropic的广告"明显不诚实","德州用ChatGPT免费版的人比全美用Claude的人还多"。。

不过插广告这事儿确实不是大伙喜欢的,可以预见的,评论区一边倒地,说他破防了。

哎,光说不解气,不然打一架?

第二天,还真打起来了。不过不是线下真实嗷,是 Anthropic 把 Claude Opus 4.6 摆上了台面。


OpenAI 那边也不甘示弱,在Opus 4.6上线二十多分钟之后,火速掏出了GPT-5.3 Codex应战。


不过,这波对轰虽然热闹,两边的招式其实不太一样。 Anthropic 这次,是拿出了自己最强的通用模型,而 OpenAI 拿出的 Codex,其实是个专精代码的“偏科生”,对大多数人来说用不到。。总感觉气势上就输一头啊。

所以今天世超先撇开那个写代码的,还是来聊聊大家更感兴趣的通用模型, Claude Opus 4.6 吧。

先说结论,在"干活"这件事上,Opus 4.6 应该可以算目前最强的大模型。

跑分图什么的,大伙估计都看腻了,也基本都是分数要比老模型高一点点,当然也有少量不如的,不过对咱来说,看的还是综合体验嘛。


所以我们仔细翻了下 Anthropic 官方的介绍和 System Card,把几个真正有料的升级给各位拎了出来。

首先,上下文窗口终于破百万Tokens了。

之前,Opus系列最让人诟病的,就是20万Token的上下文,而隔壁 Gemini 的百万上下文早用了快两年了。

而 Opus 4.6 在 MRCR v2 这个评测里拿了76分,我们俗称“大海捞针”,也就是在巨长上下文里找到我们想找的东西,而上一代Sonnet 4.5是18.5分,一下提升了四倍,可以说是质变了。


但上下文这玩意,重点不是数字大不大,而是能不能真好用啊,很多模型号称百万上下文,实际上塞到后面就开始记忆错乱,胡言乱语了。

所以这次 Anthropic 是有备而来,他们提了一个叫“上下文衰减”的概念,是指上下文过长时,注意力分配被稀释,导致模型难以精准捕捉一些细小的信息。说白了就是 AI 的脑容量被稀释了,读了后面忘前面,在海量信息里找不着重点。


而Claude现在的解决思路,叫“上下文压缩”,能在对话达到 Token 阈值时,自动将冗长的历史记录压缩成高浓度的摘要,就好比你追了几百集电视剧脑子不够用了,它不仅帮你把前面那些啰嗦的情节删了给大脑腾内存,还能自动生成前情提要让你无缝衔接下一集。

但世超实测了一下,是有点想吐槽的。

我缺的是上下文吗,好像是额度啊!Pro 版订阅根本聊不到上下文顶点就用光光了。


而且我试了一下,一次喂大量上下文的能力,是干不过Gemini的。比如我最近有个研究物理的项目,找到了一份天文学家里希尔的原版著作,在阅读中碰到了疑问,因为他的一个计算结果和牛顿老师完全不同!

然后我把这个200多页的书丢给Gemini,问他到底是谁的问题。

Gemini读完,理解得又快又准,并且精确指出了里希尔原文的页码数,一通操作指出,牛顿是对的。


而 Opus 4.6 这边好像是有 bug,一本书根本喂不进去,显示error。我最后只好给它拆成了两半。


不过拆完就蛮顺利的了,它成功找到了出问题的页码数,还给了精确的推理分析,质量跟Gemini 3 Pro不相上下。


所以能力这块是完全过关的,至于为什么一次喂不进一本书,可能是一种仁慈的防token爆炸机制吧。

当然就这也不够说“干活最强”,Claude现在最强的地方,其实是“实操”的能力。

咋说呢?你就看之前AI圈爆火的干活工具,什么 MCP,Skill,都是Claude先用上,就连不久前爆火的 Clawdbot (现OpenClaw)现在的默认推荐模型都是Opus 4.6。


就是因为 Opus 这玩意,操作电脑的能力,确实太狠了。

比如我问它,我现在用的显示器,二手货最便宜能多少钱。


我就只需要给它说一句话,它就能自己调用MCP,连接我的电脑,查看我的显示器型号,再自己上网去闲鱼搜最低价。


最终搜出来的价格,跟我自己上闲鱼搜的大差不差,而且最骚的是它还知道国补,让我别买二手,考虑直接加钱换新,全程不需要我干预,可以说真的很像真人助理了。


除了这个,Claude Opus的编码能力一直是压着其他家打的,从竞技场排名来看,Opus 4.5已经打遍无敌手了,现在又来了个4.6,真遥遥领先了。


再配合上超模的动手能力,能力据说已经能媲美高级工程师——这评价来自日本乐天公司的AI总经理,说 Opus 4.6 一天之内自己修好并关闭了 13 个 Bug,还看懂了另外 12 个问题是谁负责的,自动把活派给了对应的程序员。


咱也来了点简单的活,让它写个 CS 的 demo 发到我电脑上。


结果确实好用,html文件直接出现在了桌面,点开就能玩,血量、地图、子弹都显示得完全正确。


最后,Opus 4.6 还有个最顶级的能力,搜集信息,而且不是一般的信息,是各种你不确定的,犄角旮旯里的信息,它都能给你找着。AI 界把这叫做 BrowseComp,Opus 4.6 强势登顶。


这一点在世超日常使用时也深有体会,其他模型搜不到的情报,Claude 能直接给你定位来源,然后端上来。

比如,差友都知道咱差评有个内部梗,就是925,不算出圈,基本只有咱差友自己知道。

那可能有些新差友,不知道这个梗,可以去哪搜呢?咱先用Gemini和GPT试试。

结果无一例外,全部败下阵来。



结果去问了下Claude,直接一个精准命中,连今日最佳都知道,原来 Claude 也是差友吧。。


这也是为啥世超最近验证传言、搜集事实都用 Claude Opus,省心的不止一星半点啊。

这一堆子体验下来,Claude Opus 整体给人一种成熟稳重的感觉,如果你让我选择一个“它办事我放心”的AI,我毫不犹豫选的就是Claude。既然这么强,为啥在用户这块老不温不火啊?世超觉得,和 Claude 选择的路线脱不开关系。

Anthropic 从一开始就奔着"最能干的AI同事"去的,你看它的产品线,Claude Code、Cowork、Excel插件,全都一个目的,帮你把活干完。

而这,也是老板最喜欢的特质,所以企业客户占了 Anthropic 收入的 80%,这条路确实它最能打。

Claude 的风格这么偏商务风,我觉得也跟它目标客户有关。(说是这么说,感觉比其他两家好看多了。。)


而其他两家则是各有各的说法。

ChatGPT 这边,奥特曼的野心显然不只在做一个“好员工”了,最近的产品节奏也是真的猛,光 2026 年到现在就发了ChatGPT Health、Codex 桌面 App、Prism(科研工具),以及刚发布的企业平台 Frontier,还想抢块企业市场的蛋糕。 这意思像是,C 端靠用户量和广告,B 端靠平台和生态,两手都要抓,就是不知道抓不抓得住了。

至于Gemini,则想靠生态进行一个降维打击,在Gemini里你能干谷歌生态里的任何事,回邮件,传网盘,甚至看Youtube。再加上几十亿台安卓手机,如果 AI 真像水电一样渗进你每天都在用的 App 里时,单纯卖模型的公司只能拿头打。

至于谁能笑到最后?

有个网友的评论我觉得很到位:"2026年最聪明的做法不是选一个最好的模型,而是知道每个模型最擅长什么,换着用。"

说得非常对啊,我认可,但唯一的缺点是我钱包有点不对了。

撰文:不咕

编辑:江江&面线

美编:不咕

图片、资料来源

Anthropic、X


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马斯克人设崩塌!文件曝光:爱泼斯坦嫌他“带不动”,怕他大嘴巴坏事

马斯克人设崩塌!文件曝光:爱泼斯坦嫌他“带不动”,怕他大嘴巴坏事

花小猫的美食日常
2026-02-06 06:47:20
25%关税威胁,特朗普亲手打破“休战期”,中美博弈进入新阶段

25%关税威胁,特朗普亲手打破“休战期”,中美博弈进入新阶段

林子说事
2026-02-08 00:28:22
突然爆雷!涉案超25亿,掌门人卷款跑路,“康养巨头”彻底凉了

突然爆雷!涉案超25亿,掌门人卷款跑路,“康养巨头”彻底凉了

花谢依然美
2026-02-07 09:24:06
贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

素素娱乐
2026-02-06 10:29:31
特朗普宣布对华25%关税,打破贸易休战,称决定不可更改

特朗普宣布对华25%关税,打破贸易休战,称决定不可更改

精彩背后
2026-02-08 00:56:54
我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

我国每年近千万人做肠镜!医生直言:做一次肠镜,或管十年无碍

白宸侃片
2026-02-01 19:13:01
新一代奔驰S级出现在上海街头!整体气场提升明显

新一代奔驰S级出现在上海街头!整体气场提升明显

热点科技
2026-02-07 13:29:55
3-0!亚马尔世界波,2亿巨头7战造8球,巴萨6连胜,甩开皇马4分

3-0!亚马尔世界波,2亿巨头7战造8球,巴萨6连胜,甩开皇马4分

我的护球最独特
2026-02-08 01:13:15
宣布加盟!你好,字母哥!彻底玩弄了整个NBA

宣布加盟!你好,字母哥!彻底玩弄了整个NBA

篮球实战宝典
2026-02-07 17:01:41
演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

演员立威廉:身心几近崩溃,已重新安排遗嘱!去年被诊断出甲状腺癌二期

都市快报橙柿互动
2026-02-07 00:32:47
房东喊涨,买家不吭声,市场在等一个信号

房东喊涨,买家不吭声,市场在等一个信号

阿离家居
2026-02-08 02:01:14
第一次对“硫磺皂”产生了敬意!2块钱的东西,居然用途这么广

第一次对“硫磺皂”产生了敬意!2块钱的东西,居然用途这么广

装修秀
2026-02-07 11:30:03
考试考了个寂寞!一家长吐槽孩子期末成绩,靠特殊渠道才隐约知晓

考试考了个寂寞!一家长吐槽孩子期末成绩,靠特殊渠道才隐约知晓

火山诗话
2026-02-07 05:53:12
25名女子赴港卖淫被抓:最小的仅年16岁,一次时长不限,价格曝光

25名女子赴港卖淫被抓:最小的仅年16岁,一次时长不限,价格曝光

博士观察
2026-02-07 14:20:40
费兰12球+莱万10球,巴萨是本赛季五大联赛两人进球上双第二队

费兰12球+莱万10球,巴萨是本赛季五大联赛两人进球上双第二队

懂球帝
2026-02-08 00:33:23
冬奥羽绒服哪家强?中国穿李宁、美国拉夫劳伦、加拿大Lululemon

冬奥羽绒服哪家强?中国穿李宁、美国拉夫劳伦、加拿大Lululemon

商务范
2026-02-07 15:47:10
微信又更新,可以切换新模式了!

微信又更新,可以切换新模式了!

全是技能
2026-02-07 17:24:09
冬奥会开幕式上最大的亮点,恐怕就是美国队出场时,全场一片狂嘘

冬奥会开幕式上最大的亮点,恐怕就是美国队出场时,全场一片狂嘘

十点街球体育
2026-02-07 15:22:49
白鹿张凌赫分手实锤?女方翻白眼不理睬,男方眼神卑微疑负了对方

白鹿张凌赫分手实锤?女方翻白眼不理睬,男方眼神卑微疑负了对方

小徐讲八卦
2026-02-07 08:19:32
出口突破832万辆,究竟是谁在狂买中国车?

出口突破832万辆,究竟是谁在狂买中国车?

牲产队
2026-02-05 19:16:07
2026-02-08 03:16:49
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10246文章数 489437关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

健康
手机
数码
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版