凌晨,Anthropic和OpenAI同时上线了新模型Claude Opus 4.6和GPT-5.3-Codex,给两家企业本就在为超级碗广告互呛的激烈气氛又添了一把柴火。当全美观众还在为它俩斥资数百万美元投放的互怼广告津津乐道时,它们已经杀到了同日发新模型这样的正面交锋战场上。
Anthropic发布Claude Opus 4.6:搭载处于Beta阶段的1M上下文窗口
Anthropic发布了Claude Opus 4.6,其并非仅仅是参数量的增加,而是在多个关键维度上实现了实质性的更聪明和更可用。一个值得关注的亮点是它那处于Beta阶段的1M上下文窗口。过去的模型在处理极长文本时,经常出现上下文腐化的问题,即模型性能随着文本长度增加而显著下降,导致它忘记或者混淆较早之前的信息。
而Claude Opus 4.6在著名的大海捞针基准测试MRCR v2上,成绩达到了76%,远超前代Sonnet 4.5的18.5%,这证明它能够真正有效地利用超长下文,在海量文档中精准定位并提取被深埋的关键信息,从而胜任大型代码库分析、多篇论文综述、跨会话长程任务规划等场景。
![]()
(来源:https://www.anthropic.com/news/claude-opus-4-6)
在推理能力和编码能力上,Claude Opus 4.6在多项权威基准测试中确立了行业领先地位,特别是在需要自主规划和多步执行的智能体编码任务上。比如,在Terminal-Bench 2.0中它的测试成绩排名第一。
实际表现就是,当你交给它一个复杂的开发任务时间,它会进行更加审慎的规划,对代码进行更加彻底的自我审查和自我调试,并能在大型项目中保持更好的方向感和一致性。也就是说不再是简单地生成一段代码,实际上是在扮演一个更有经验的开发者角色。
为了让这种深度能力更加容易被调控,Anthropic引入了努力程度(Effort)控制参数,开发者现在可以在低、中、高、最大这四个级别中进行选择。
在高模式或者最大模式下,模型会投入更多计算资源进行深度思考,非常适合解决一些棘手问题;而对于简单的查询,切换到中模式或者低模式则可以获得更快的响应并能降低成本。与之配套的自适应思考功能,则允许模型根据上下文自行判断何时需要启动深度推理,进一步提高了灵活性。
为了解决长会话或智能体任务中必然遇到的上文长度限制问题,API还能提供上下文压缩Beta功能。当对话接近预设的token阈值时,模型会自动将较早的上下文进行智能摘要并替换,从而为新的交互腾出空间,让超长程任务成为了可能,而不仅仅是理论上地支持长上下文。
![]()
(来源:https://www.anthropic.com/news/claude-opus-4-6)
在应用层,Claude正在深度融入生产力工具链。Claude Code引入了智能体团体的研究预览功能,允许创建多个协同工作的AI智能体来并行处理任务,例如同时对代码库的不同模块进行审查。
而对于更广泛的办公场景,Claude in Excel和全新推出的Claude in PowerPoint研究预览版,将模型的推理能力和生成能力直接嵌入到电子表格和幻灯片制作中。它能执行公式操作,也能通过理解你的数据意图进行多步规划;在PPT中,它可以理解企业品牌模板和字体,生成风格一致的内容。
安全与能力对齐一直是Anthropic的重点之一。据了解,Opus 4.6在保持与顶尖模型相当的安全防护水平的同时,其过度拒绝的概率降低到了近期Claude模型中的最低点。这意味着它在有效拦截有害请求的同时,对于普通问题和良性问题的回应更加开放和有用。针对该模型的网络安全能力,Anthropic也专门开发了新的检测探针,并将其用于辅助发现和修复开源软件漏洞等防御性用途。
总的来说,Claude Opus 4.6一定程度上代表着大模型正从对话式问答工具向可承担复杂工作的智能体伙伴演进。它对于超长上下文的实用化支持、精细化的推理控制、以及深度集成的工作流,能够进一步地提高用户效率。
OpenAI推出GPT-5.3-Codex:可能是目前最强大的智能体编码模型
OpenAI此次推出的是GPT-5.3-Codex,被称为是迄今为止最强大的智能体编码模型,能够独立接管涉及研究、工具使用和复杂执行的长期任务。也就是说,一个可以持续工作数天之久、可以从零开始构建出复杂游戏应用的AI诞生了,在它工作的过程中你可以随时和其对话并调整工作方向,无需担心失去长上下文记忆。
![]()
(来源:https://openai.com/index/introducing-gpt-5-3-codex/)
在多项关键基准测试中,GPT-5.3-Codex都创下了新的行业纪录,以77.3%的准确率大幅超越了前代模型在衡量终端编程技能的Terminal-Bench 2.0基准测试上的表现,并在更严格的、涵盖多语言的SWE-Bench Pro软件工程测评中达到了领先水平。
GPT-5.3-Codex的能力边界已经从纯粹的编码拓展到整个知识工作领域。在衡量真实世界职业任务的GDPval评估中,其表现能力与OpenAI的通用旗舰模型GPT-5.2相当。在制作金融分析PPT、设计零售培训文档以及编写商业计划书中,GPT-5.3-Codex能够输出专业的可使用内容。
![]()
(来源:https://openai.com/index/introducing-gpt-5-3-codex/)
OpenAI透露,GPT-5.3-Codex的开发过程本身就是一个自我实现的范例,OpenAI利用该模型的早期版本来调试其自身的训练过程、管理部署并诊断测试结果,加速了整个模型的研发周期。总结来说,GPT-5.3-Codex的推出让AI进一步地从一个等待指令的编程工具转变为一个能主动思考、跨领域执行并与人类实时协作的电脑伙伴。
急于变现?OpenAI推出AI企业级产品Frontier
如果说这次同一天发布新品,OpenAI的赢点之一或许在多发了一样新品,那就是企业级产品Frontier。它不是一个大模型,是一个专门为企业打造的、可用于规模化构建、能够部署和管理AI智能体的平台。它的核心目标是将模型能力,真正转化为企业内可协同、可管控、能直接创造价值的AI同事。
![]()
(来源:https://openai.com/index/introducing-openai-frontie)
过去几年,尽管许多企业尝试引入AI,但往往陷入了试点困境,一个个独立的AI应用像孤岛一样,缺乏对于企业整体业务背景的理解,难以融入核心流程。Frontier旨在解决这一问题,它为企业AI智能体提供了四大关键支撑:共享的业务背景理解、可靠的执行环境、持续的学习优化机制,以及明确的身份权限和安全边界。
简单来说,Frontier试图像培训一位刚入职的新员工一样,来配置一个AI智能体。它会打通企业内部固有的数据仓库、CRM系统和内部应用,让AI理解信息如何流动、决策在何处产生。
在此基础之上,AI智能体可以在一个受控的执行环境中,使用工具、运行代码、处理文件,从而能够实际地完成各种知识工作任务,并在过程中积累记忆,以便能够越做越好而不是越做越差。同时,每个AI智能体都拥有独立的身份和明确的权限护栏,确保其在敏感环境和受监管的环境里也能被安全地使用。
目前,OpenAI已经和惠普、甲骨文以及Uber等企业合作。OpenAI还举了和一家大型制造商合作的案例,通过部署基于Frontier的智能体,后者将生产优化分析工作从六周缩短到了一天。
其实也可以看出,OpenAI的变现愿望是非常强的,此次伴随新模型一并推出Frontier,也反映出其战略重心正从提供单一的模型API转向深入的企业复杂工作量,深入到提供端到端解决方案的地步。对于希望将AI转化为实际竞争优势的企业而言,Frontier或许是一个值得关注的备选方案。
而这一凌晨对决何尝不是一个新的超级碗时刻?Anthropic的创始人本来就是OpenAI的前员工,让这一对决更是增加了火药味。
整体来看,Claude Opus 4.6的核心优势在于精细控制和可靠性,GPT-5.3-Codex则展现了OpenAI的系统整合能力。前者胜在深度和可靠,后者强在广度和进化速度。未来到底孰强孰弱,主要还看谁家产品能够转化为真正不可替代的产业发展成果。
参考资料:
https://www.anthropic.com/news/claude-opus-4-6
https://openai.com/index/introducing-gpt-5-3-codex/
https://openai.com/index/introducing-openai-frontier/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.