贴脸嘲讽ChatGPT后，这家公司又发了个最强模型。|牛顿|调用|代码|上下文|正式版模型

贴脸嘲讽ChatGPT后，这家公司又发了个最强模型。

2026-02-08 00:10:45　来源: 差评XPIN

浙江举报

分享至

谁能想到呢，本周的硅谷AI圈，已经演变到了大家喜闻乐见的互喷环节。

起因是周三晚上，Anthropic在他们美国人的“春晚”上，放了几条广告，明牌嘲讽OpenAI在ChatGPT里塞广告，直接把讽刺都打到公屏上了：广告在入侵AI，但不会出现在 Claude。

奥特曼当场就坐不住了，凌晨六点在X上敲了一篇长文，说Anthropic的广告"明显不诚实"，"德州用ChatGPT免费版的人比全美用Claude的人还多"。。

不过插广告这事儿确实不是大伙喜欢的，可以预见的，评论区一边倒地，说他破防了。

哎，光说不解气，不然打一架？

第二天，还真打起来了。不过不是线下真实嗷，是 Anthropic 把 Claude Opus 4.6 摆上了台面。

OpenAI 那边也不甘示弱，在Opus 4.6上线二十多分钟之后，火速掏出了GPT-5.3 Codex应战。

不过，这波对轰虽然热闹，两边的招式其实不太一样。 Anthropic 这次，是拿出了自己最强的通用模型，而 OpenAI 拿出的 Codex，其实是个专精代码的“偏科生”，对大多数人来说用不到。。总感觉气势上就输一头啊。

所以今天世超先撇开那个写代码的，还是来聊聊大家更感兴趣的通用模型， Claude Opus 4.6 吧。

先说结论，在"干活"这件事上，Opus 4.6 应该可以算目前最强的大模型。

跑分图什么的，大伙估计都看腻了，也基本都是分数要比老模型高一点点，当然也有少量不如的，不过对咱来说，看的还是综合体验嘛。

所以我们仔细翻了下 Anthropic 官方的介绍和 System Card，把几个真正有料的升级给各位拎了出来。

首先，上下文窗口终于破百万Tokens了。

之前，Opus系列最让人诟病的，就是20万Token的上下文，而隔壁 Gemini 的百万上下文早用了快两年了。

而 Opus 4.6 在 MRCR v2 这个评测里拿了76分，我们俗称“大海捞针”，也就是在巨长上下文里找到我们想找的东西，而上一代Sonnet 4.5是18.5分，一下提升了四倍，可以说是质变了。

但上下文这玩意，重点不是数字大不大，而是能不能真好用啊，很多模型号称百万上下文，实际上塞到后面就开始记忆错乱，胡言乱语了。

所以这次 Anthropic 是有备而来，他们提了一个叫“上下文衰减”的概念，是指上下文过长时，注意力分配被稀释，导致模型难以精准捕捉一些细小的信息。说白了就是 AI 的脑容量被稀释了，读了后面忘前面，在海量信息里找不着重点。

而Claude现在的解决思路，叫“上下文压缩”，能在对话达到 Token 阈值时，自动将冗长的历史记录压缩成高浓度的摘要，就好比你追了几百集电视剧脑子不够用了，它不仅帮你把前面那些啰嗦的情节删了给大脑腾内存，还能自动生成前情提要让你无缝衔接下一集。

但世超实测了一下，是有点想吐槽的。

我缺的是上下文吗，好像是额度啊！Pro 版订阅根本聊不到上下文顶点就用光光了。

而且我试了一下，一次喂大量上下文的能力，是干不过Gemini的。比如我最近有个研究物理的项目，找到了一份天文学家里希尔的原版著作，在阅读中碰到了疑问，因为他的一个计算结果和牛顿老师完全不同！

然后我把这个200多页的书丢给Gemini，问他到底是谁的问题。

Gemini读完，理解得又快又准，并且精确指出了里希尔原文的页码数，一通操作指出，牛顿是对的。

而 Opus 4.6 这边好像是有 bug，一本书根本喂不进去，显示error。我最后只好给它拆成了两半。

不过拆完就蛮顺利的了，它成功找到了出问题的页码数，还给了精确的推理分析，质量跟Gemini 3 Pro不相上下。

所以能力这块是完全过关的，至于为什么一次喂不进一本书，可能是一种仁慈的防token爆炸机制吧。

当然就这也不够说“干活最强”，Claude现在最强的地方，其实是“实操”的能力。

咋说呢？你就看之前AI圈爆火的干活工具，什么 MCP，Skill，都是Claude先用上，就连不久前爆火的 Clawdbot （现OpenClaw）现在的默认推荐模型都是Opus 4.6。

就是因为 Opus 这玩意，操作电脑的能力，确实太狠了。

比如我问它，我现在用的显示器，二手货最便宜能多少钱。

我就只需要给它说一句话，它就能自己调用MCP，连接我的电脑，查看我的显示器型号，再自己上网去闲鱼搜最低价。

最终搜出来的价格，跟我自己上闲鱼搜的大差不差，而且最骚的是它还知道国补，让我别买二手，考虑直接加钱换新，全程不需要我干预，可以说真的很像真人助理了。

除了这个，Claude Opus的编码能力一直是压着其他家打的，从竞技场排名来看，Opus 4.5已经打遍无敌手了，现在又来了个4.6，真遥遥领先了。

再配合上超模的动手能力，能力据说已经能媲美高级工程师——这评价来自日本乐天公司的AI总经理，说 Opus 4.6 一天之内自己修好并关闭了 13 个 Bug，还看懂了另外 12 个问题是谁负责的，自动把活派给了对应的程序员。

咱也来了点简单的活，让它写个 CS 的 demo 发到我电脑上。

结果确实好用，html文件直接出现在了桌面，点开就能玩，血量、地图、子弹都显示得完全正确。

最后，Opus 4.6 还有个最顶级的能力，搜集信息，而且不是一般的信息，是各种你不确定的，犄角旮旯里的信息，它都能给你找着。AI 界把这叫做 BrowseComp，Opus 4.6 强势登顶。

这一点在世超日常使用时也深有体会，其他模型搜不到的情报，Claude 能直接给你定位来源，然后端上来。

比如，差友都知道咱差评有个内部梗，就是925，不算出圈，基本只有咱差友自己知道。

那可能有些新差友，不知道这个梗，可以去哪搜呢？咱先用Gemini和GPT试试。

结果无一例外，全部败下阵来。

结果去问了下Claude，直接一个精准命中，连今日最佳都知道，原来 Claude 也是差友吧。。

这也是为啥世超最近验证传言、搜集事实都用 Claude Opus，省心的不止一星半点啊。

这一堆子体验下来，Claude Opus 整体给人一种成熟稳重的感觉，如果你让我选择一个“它办事我放心”的AI，我毫不犹豫选的就是Claude。既然这么强，为啥在用户这块老不温不火啊？世超觉得，和 Claude 选择的路线脱不开关系。

Anthropic 从一开始就奔着"最能干的AI同事"去的，你看它的产品线，Claude Code、Cowork、Excel插件，全都一个目的，帮你把活干完。

而这，也是老板最喜欢的特质，所以企业客户占了 Anthropic 收入的 80%，这条路确实它最能打。

Claude 的风格这么偏商务风，我觉得也跟它目标客户有关。（说是这么说，感觉比其他两家好看多了。。）

而其他两家则是各有各的说法。

ChatGPT 这边，奥特曼的野心显然不只在做一个“好员工”了，最近的产品节奏也是真的猛，光 2026 年到现在就发了ChatGPT Health、Codex 桌面 App、Prism（科研工具），以及刚发布的企业平台 Frontier，还想抢块企业市场的蛋糕。这意思像是，C 端靠用户量和广告，B 端靠平台和生态，两手都要抓，就是不知道抓不抓得住了。

至于Gemini，则想靠生态进行一个降维打击，在Gemini里你能干谷歌生态里的任何事，回邮件，传网盘，甚至看Youtube。再加上几十亿台安卓手机，如果 AI 真像水电一样渗进你每天都在用的 App 里时，单纯卖模型的公司只能拿头打。

至于谁能笑到最后？

有个网友的评论我觉得很到位："2026年最聪明的做法不是选一个最好的模型，而是知道每个模型最擅长什么，换着用。"

说得非常对啊，我认可，但唯一的缺点是我钱包有点不对了。

撰文：不咕

编辑：江江&面线

美编：不咕

图片、资料来源：

Anthropic、X

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.