网易首页 > 网易号 > 正文 申请入驻

比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二

0
分享至



机器之心发布

Anthropic 和 OpenAI 硬碰硬推出 Claude Opus 4.6 和 GPT-5.3-Codex 后,基础大模型的较量正式进入了实战比拼阶段。模型规划更加谨慎,维持更长时间的自主工作流等能力提升正在试图回应大模型商业化落地 “最后一公里” 的能力要求和用户期待。

在两家顶尖模型的硬核指标评测中,Opus 4.6 和 5.3-Codex 都不约而同的亮出了各自在 Terminal-Bench 2.0 上的比分,例如 Opus 4.6 用其在 Agentic Terminal Coding Task 上的 65.4% 证明其模型的出色表现,Sam Altman 通过 5.3-Codex 在 Terminal-Bench 2.0 上达到 77.3%(75.1%)的成绩,宣称其拥有目前最佳的编码性能。

就在这个被 Anthropic 和 OpenAI 视为衡量 Agent 真实工程能力全球权威基准 Terminal-Bench 2.0 榜单上,中国团队 Feeling AI 凭借 CodeBrain-1,搭载最新 GPT-5.3-Codex 底座模型,一举冲到 72.9%(70.3%) 并跻身全球排行榜第二,成为榜单前 10 中唯一的中国团队。

全球前二!仅次于 OpenAI Simple Codex

先直接来看 Feeling AI 的 CodeBrain-1 在 Terminal-Bench 2.0 上的排名和评测情况。

CodeBrain-1 紧追 Open AI 的 Simple Codex(GPT-5.3-Codex),Factory 的 Droid 使用 Anthropic 最新基模 Claude Opus 4.6 排名第三。





Terminal Bench 覆盖的任务类型非常广泛,其中既包括复杂的系统操作,也包含大量需要在真实终端环境中完成的编码任务。 而 CodeBrain-1 的核心关注点,是 “代码能否被正确写出并运行”。在技术实现上,CodeBrain-1 专注打磨了两个直接影响 “能否成功且高效地完成任务” 的环节。

  • Useful Context Searching:只用 “真正有用” 的上下文。在复杂任务中,信息不是越多越好,而是是否相关,减少噪音可以有效避免 LLM 的幻觉问题。CodeBrain-1 会根据当前任务需求和已有 Code Base 索引,充分利用 LSP (Language Server Protocol) 的功能,提高关联信息的检索效率,有效辅助 Code Generation 的过程。比如当我们需要为一个游戏 Bot 规划任务时,需要先了解如何使用该 Bot 的 API。CodeBrain-1 在 Coding 过程中,借助 LSP Search 准确获取了 move_to (target)、do (action) 等相关方法的签名、文档和已有 Code Base 内的使用实例等信息,有效降低了关联信息检索的损耗和上下文干扰。
  • Validation Feedback:让失败真正变成信息。CodeBrain-1 可以从 LSP Diagnostics 当中高效定位,并补充错误相关的代码和文档,有效缩减 Generate -> Validate 的循环过程。比如 CodeBrain-1 编写的代码中出现了调用 on (observation, exec)(一个定义 Bot Reaction 的方法)时,出现了参数 exec 类型错误的问题,这时,LSP 除报错 argument type mismatch 之外,还会额外提供该方法的 caller 示例、错误参数相关文档、以及 exec 这个参数在实现中如何被使用等辅助信息。
  • 团队从 Terminal Bench 中筛选出了一个更聚焦硬核 coding 任务的子集, 47 条均可以使用单一程序语言(Python)完成的任务。在这一子集中,CodeBrain-1 也表现出了稳定而一致的完成能力:关联代码和文档检索更高效;在代码检查和验证失败时,能更快定位问题。

Rank Agent Model Py Tasks Coding Tasks All Tasks

1 Simple Codex GPT-5.3-Codex 73.9% 72.7% 74.9%

2 CodeBrain-1 GPT-5.3-Codex 72.3% 70.2% 70.3%

3 Droid Claude Opus 4.6 70.2% 66.8% 69.9%

4 Mux GPT-5.3-Codex 71.9% 69.2% 68.5%

5 Droid GPT-5.2 66.0% 61.6% 65.1%

6 Ante Gemini 3 Pro 66.8% 62.7% 64.9%

7 Terminus 2 GPT-5.3-Codex 64.7% 61.4% 64.7%

8 Junie CLI Gemini 3 Flash 68.9% 62.7% 64.3%

9 Droid Claude Opus 4.5 62.1% 58.3% 63.1%

10 Terminus 2 Claude Opus 4.6 67.2% 63.1% 62.9%

此外,在 Token 的消耗方面,CodeBrain-1 也展现出了不俗的表现,可持续降低用户成本。对比 Anthropic 发布的技术文档,当基模均使用 claude opus 4.6 时,使用CodeBrain-1 和 Claude Code 在两者均成功的 Py Tasks 子任务上所消耗的总 Token 大幅缩减了超 15%。

CodeBrain-1—— 会动态调整计划与策略的 “大脑”

CodeBrain-1 在 Terminal-Bench 2.0 上的强势表现还不仅仅体现在真实命令行终端(CLI)环境下的端到端任务执行能力。更重要的,团队进一步的赋予了它更高阶的能力 —— 会动态调整计划与策略的 “大脑”,它通过优化任务的执行逻辑和错误反馈机制,显著提升了模型在真实终端环境下的操作成功率。

例如在大多数游戏中,角色的 “智能” 主要由游戏策划与 Gameplay 程序提前定义,包括行为规则、触发条件、状态切换和响应逻辑。这种方式在工程上是可控的,但也存在明显限制:行为往往是静态的、可枚举的;想要表现出 “更聪明” 的反应,通常需要大量手工规则和长期打磨;一旦环境复杂或情况超出预期,智能表现就会迅速退化。这也是为什么高智能特性往往意味着极高的开发与维护成本。

CodeBrain-1 提出了一种不同的解决方式。并非让 AI 直接 “随意发挥”,而是反过来调整分工方式。比如在游戏设计阶段,只由人类定义智能的 “维度” 和 “基调”, 将具体行为与策略的生成,交给 AI 在受限空间内动态完成。在这种模式下,设计者不再需要穷举每一种行为,而是定义人类用户在意什么(目标、偏好、性格维度),记住什么(观察、历史、群体经验)以及在什么范围内可以调整计划与策略。CodeBrain-1 则负责在这些约束条件内,动态生成 “智能” 所对应的可执行程序,并根据实际反馈不断调整。

这里的 “计划和策略” 既可以作用在个体层面,也可以作用在群体层面。对个体而言,它意味着角色可以根据自身目标、记忆和观察结果,持续调整日程、行为选择和对他人的态度对群体而言,它意味着一个组织可以形成共享记忆,并基于外部条件变化,调整整体规划和响应规则。

Terminal-Bench 2.0 和 CodeBrain-1 的含金量

Terminal-Bench 是由斯坦福大学与 Laude Institute 共同开发的开源基准测试套件,专门用于评估 AI 智能体在真实命令行终端(CLI)环境下的端到端任务执行能力。相较于传统的代码生成评测,它的核心特点包括:

  • 真实的操作环境:测试在隔离的 Docker 容器中进行,AI 必须像人类工程师一样,在真实的 Linux 环境中进行编译、调试、训练模型或部署服务。
  • 长程硬任务 (Hard Tasks):包含 89 个精心设计的任务,覆盖软件工程、系统管理、科学计算和数据处理等领域。这些任务通常需要多个步骤,无法通过简单的模式匹配来完成。
  • 严苛的自动验证:每个任务都配备了人类编写的标准答案和自动验证脚本。系统根据任务产出(如生成的证书、修复的代码或运行的服务)进行 0/1 判定,确保结果的可靠性。
  • 2.0 版升级重点:相比 1.0 版本,2.0 显著提升了任务难度和验证的严格程度。目前顶级大模型在该基准上的得分通常低于 65%,暴露出 AI 在处理复杂系统级任务时的瓶颈。

Terminal-Bench 2.0 的任务难度很高,即使是顶尖模型也未能实现完美的解决率。CodeBrain-1 首次上榜就杀到了全球第二的位置,含金量不言而喻。以 GPT 系列模型为例,模型通常具有极强的 Reasoning Chain,但有时会产生 “想得太多” 导致的执行延迟。CodeBrain-1 作为 “节流阀” 和 “校准器”,引导模型只在关键报错点进行深度思考,而在常规 CLI 操作中保持高效率,这也将是拉开大模型商业落地差距的核心技术点。

  • 强大的 Agent 框架可以弥补 “模型” 与 “真实环境” 的鸿沟。打开一个终端,执行命令,捕获报错信息,并将错误反馈给模型让其修正。如果没有这个框架,模型只能 “纸上谈兵”。
  • Agent 框架在状态管理与长程规划 (Long-term Planning) 上至关重要。Terminal-Bench 2.0 的任务通常包含几十个步骤。基础模型往往容易在复杂的上下文中 “迷路” 或产生幻觉。 而 Agent 框架充当了记忆和规划模块。它记录了已经执行过哪些命令、当前目录结构是什么、哪些尝试失败了,确保模型始终朝着最终目标前进。
  • 解决 “自我修正” 循环,这是 CodeBrain-1 的核心价值。在真实终端中,代码运行报错是常态。单纯的只依赖模型可能会陷入循环报错,Agent 框架则引入的推理闭环 (Reasoning Loop)。它会分析 stderr(标准错误输出),通过内置的逻辑过滤干扰信息,只把关键冲突反馈给模型,引导模型实现高效的 “试错 - 改进”。
  • 此外,工具调用标准化和成本与效率优化也不容忽视。模型的能力在不断进化的同时,推理成本昂贵的问题始终无法绕开,Agent 框架通过预处理和结构化提示词,减少了模型所需的上下文长度(Token),让任务执行得既快又省。

OpenAI 在其官网技术博客中明确将 Simple Codex 定义为 “针对长程软件工程任务的最优解”。模型和 Agent 框架的组合似于 “赛车手 + F1 赛车”。好的模型就是那个顶尖的赛车手,而 Agent 框架则是那台专为夺冠调教的赛车。一个能驾驭全球顶尖模型的中国框架,意味着中国团队在 AI 时代的 “高级操作系统” 竞争中正跻身全球更前沿的位置。

大模型商业落地的最后一公里

CodeBrain-1 并不是一个 “更会说话” 的 AI,而是一个由 Code 组成、能够持续调整计划与策略的执行型大脑。

OpenAI 联合创始人 Andrej Karpathy 认为模型作为 AI 的内核至关重要,但 Agent 框架作为 AI 的操作系统也不容忽视。我们不应该只关注模型写代码的能力,更应该关注它在复杂环境中的自主解决问题能力。Sam Altman 在 GPT-5.3-Codex 发布后宣称 Codex 从一个能够编写和审查代码的代理,变成了一个几乎可以执行开发人员和专业人士在计算机上任何操作的代理。

基础模型公司虽然强大,但各行各业的垂直场景都离不开良好的的工程框架,不论是更系统的 Agent 框架还是小而美的开发者效率工具,这些离用户更近一步的机会都暗藏着巨大的商业价值。

AI 的第一波浪潮是模型(Model-centric),而第二波浪潮将是应用与工作流(Workflow-centric)。红杉资本曾预言,未来的胜者是那些能控制工作流的公司,资本无法忽视那些能够将模型能力转化为实际产出的 “强大能力”。

Feeling AI 认为动态交互是世界模型通向 AGI 的终极拼图。他们把世界模型的实现分成了 InteractBrain(理解、记忆与规划),InteractSkill(能力与执行)和 InteractRender(渲染与呈现)三层。MemBrain 几天前刚在Agentic Memory 领域拿下全球 SOTA,CodeBrain 作为会动态调整计划与策略的 “大脑” 又迅速跻身全球前列,“世界模型 InteractBrain” 在一周内被这家创业公司用 “MemBrain+CodeBrain” 两张牌强势证明了。

在 OpenAI 和 Anthropic 主导的生态位下,中国团队作为 “框架定义者” 杀入竞争,这也代表了中国 AI 技术创新路径的独特性。他们看上去在走一条没有捷径的道路,攻破每一城也绝非易事,但这也许正是中国的创业者们孜孜不倦试图回答的 “硬核难题”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iOS 27 将为新机带来分屏显示功能!

iOS 27 将为新机带来分屏显示功能!

花果科技
2026-06-03 17:08:32
四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

四国人马窜台,赖清德派人接机,兴奋劲还没过,绿营元老公开反水

阿讯说天下
2026-06-03 03:14:05
上海一女子吐槽老公:每天在家躺着工资却比自己高倍

上海一女子吐槽老公:每天在家躺着工资却比自己高倍

周哥一影视
2026-06-03 09:26:02
中方定性,16国联合军团围剿俄,日本已正式介入

中方定性,16国联合军团围剿俄,日本已正式介入

玲儿爱唱歌
2026-06-03 12:30:42
白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

白酒最怕的解药,不是茶水,而是常见的它,三分钟快速解酒!

展望云霄
2026-05-18 22:30:18
俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

俄罗斯官员告知普京,俄乌冲突已超出了俄财政承受能力!

闻号说经济
2026-06-02 10:43:10
小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

小泉香会硬刚中国一战封神?日本国内吹捧潮背后,藏着股危险躁动

刘振起观点
2026-06-03 15:35:08
马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

马刺尼克斯G1伤情!马刺无病例!纽约天塌了,反文班装甲受伤了!

漫川舟船
2026-06-03 09:44:51
送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

送别“司马懿”魏宗万,他当年拿到《三国演义》剧本,第一时间做的竟然是……

上观新闻
2026-06-03 08:22:20
外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

外卖大势已定?不出意外的话,明后年外卖行业将迎来3个变化

混沌录
2026-06-02 22:58:17
2次!刻进DNA的恐惧!他被文班防到不敢投!

2次!刻进DNA的恐惧!他被文班防到不敢投!

柚子说球
2026-06-02 22:34:15
26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

26年6月4日周四A股前瞻:3700只个股下跌!反弹遭压,方向抉择!

月颖资金推动论
2026-06-03 16:44:43
疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

疯了!曼联盯上沙特 40 万周薪边锋!当年英超只踢一年就被甩卖

澜归序
2026-06-03 05:43:27
CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

CBA消息!广东锋线欲拒绝续约,怀特塞德离开上海,山西续约潘江

中国篮坛快讯
2026-06-03 15:00:02
重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

重锤高校奢华录取通知书!教育部喊停:通知书必须回归"一页纸"

听心堂
2026-06-03 16:16:08
中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

中国要有大动作了?菲防长说中国援菲是“包装”,我方回应来了

风信子的花
2026-06-03 16:32:08
名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

名模新恋情光速升温!东京拉面馆甜蜜同框,知情人:夏威夷改变了一切

娱圈观察员
2026-06-03 01:18:06
王楚钦上任仅24小时,丑闻频发引争议

王楚钦上任仅24小时,丑闻频发引争议

萧狡科普解说
2026-06-03 13:03:31
赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

赵露思泰国演唱会各种大尺度,公然表演“胸震”,为曝光度无底线

花哥扒娱乐
2026-05-22 20:17:55
她是王洪文亲信,曾任上海市委书记,1982年被判了17年

她是王洪文亲信,曾任上海市委书记,1982年被判了17年

鉴史录
2026-06-02 15:15:51
2026-06-03 17:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

头条要闻

神农架一景区被指"圈路收费" 涉事公司最新公告

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

手机
本地
房产
公开课
军事航空

手机要闻

小米17T系列官宣支持「徕卡Live动态照片」,6月8日发布

本地新闻

用杨柳青年画的方式,打开天津

房产要闻

突发!254亩调规,海口江东的超级学校真的快来了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版