比肩OpenAI Simple Codex，中国团队闯入Terminal-Bench全球第二|工作流|codex|bench|openai|simple|terminal

比肩OpenAI Simple Codex，中国团队闯入Terminal-Bench全球第二

2026-02-10 18:40:14　来源: 机器之心Pro

北京举报

分享至

机器之心发布

Anthropic 和 OpenAI 硬碰硬推出 Claude Opus 4.6 和 GPT-5.3-Codex 后，基础大模型的较量正式进入了实战比拼阶段。模型规划更加谨慎，维持更长时间的自主工作流等能力提升正在试图回应大模型商业化落地 “最后一公里” 的能力要求和用户期待。

在两家顶尖模型的硬核指标评测中，Opus 4.6 和 5.3-Codex 都不约而同的亮出了各自在 Terminal-Bench 2.0 上的比分，例如 Opus 4.6 用其在 Agentic Terminal Coding Task 上的 65.4% 证明其模型的出色表现，Sam Altman 通过 5.3-Codex 在 Terminal-Bench 2.0 上达到 77.3%（75.1%）的成绩，宣称其拥有目前最佳的编码性能。

就在这个被 Anthropic 和 OpenAI 视为衡量 Agent 真实工程能力全球权威基准 Terminal-Bench 2.0 榜单上，中国团队 Feeling AI 凭借 CodeBrain-1，搭载最新 GPT-5.3-Codex 底座模型，一举冲到 72.9%(70.3%) 并跻身全球排行榜第二，成为榜单前 10 中唯一的中国团队。

全球前二！仅次于 OpenAI Simple Codex

先直接来看 Feeling AI 的 CodeBrain-1 在 Terminal-Bench 2.0 上的排名和评测情况。

CodeBrain-1 紧追 Open AI 的 Simple Codex（GPT-5.3-Codex），Factory 的 Droid 使用 Anthropic 最新基模 Claude Opus 4.6 排名第三。

Terminal Bench 覆盖的任务类型非常广泛，其中既包括复杂的系统操作，也包含大量需要在真实终端环境中完成的编码任务。而 CodeBrain-1 的核心关注点，是 “代码能否被正确写出并运行”。在技术实现上，CodeBrain-1 专注打磨了两个直接影响 “能否成功且高效地完成任务” 的环节。

Useful Context Searching：只用 “真正有用” 的上下文。在复杂任务中，信息不是越多越好，而是是否相关，减少噪音可以有效避免 LLM 的幻觉问题。CodeBrain-1 会根据当前任务需求和已有 Code Base 索引，充分利用 LSP (Language Server Protocol) 的功能，提高关联信息的检索效率，有效辅助 Code Generation 的过程。比如当我们需要为一个游戏 Bot 规划任务时，需要先了解如何使用该 Bot 的 API。CodeBrain-1 在 Coding 过程中，借助 LSP Search 准确获取了 move_to (target)、do (action) 等相关方法的签名、文档和已有 Code Base 内的使用实例等信息，有效降低了关联信息检索的损耗和上下文干扰。
Validation Feedback：让失败真正变成信息。CodeBrain-1 可以从 LSP Diagnostics 当中高效定位，并补充错误相关的代码和文档，有效缩减 Generate -> Validate 的循环过程。比如 CodeBrain-1 编写的代码中出现了调用 on (observation, exec)（一个定义 Bot Reaction 的方法）时，出现了参数 exec 类型错误的问题，这时，LSP 除报错 argument type mismatch 之外，还会额外提供该方法的 caller 示例、错误参数相关文档、以及 exec 这个参数在实现中如何被使用等辅助信息。
团队从 Terminal Bench 中筛选出了一个更聚焦硬核 coding 任务的子集， 47 条均可以使用单一程序语言（Python）完成的任务。在这一子集中，CodeBrain-1 也表现出了稳定而一致的完成能力：关联代码和文档检索更高效；在代码检查和验证失败时，能更快定位问题。

Rank Agent Model Py Tasks Coding Tasks All Tasks

1 Simple Codex GPT-5.3-Codex 73.9% 72.7% 74.9%

2 CodeBrain-1 GPT-5.3-Codex 72.3% 70.2% 70.3%

3 Droid Claude Opus 4.6 70.2% 66.8% 69.9%

4 Mux GPT-5.3-Codex 71.9% 69.2% 68.5%

5 Droid GPT-5.2 66.0% 61.6% 65.1%

6 Ante Gemini 3 Pro 66.8% 62.7% 64.9%

7 Terminus 2 GPT-5.3-Codex 64.7% 61.4% 64.7%

8 Junie CLI Gemini 3 Flash 68.9% 62.7% 64.3%

9 Droid Claude Opus 4.5 62.1% 58.3% 63.1%

10 Terminus 2 Claude Opus 4.6 67.2% 63.1% 62.9%

此外，在 Token 的消耗方面，CodeBrain-1 也展现出了不俗的表现，可持续降低用户成本。对比 Anthropic 发布的技术文档，当基模均使用 claude opus 4.6 时，使用CodeBrain-1 和 Claude Code 在两者均成功的 Py Tasks 子任务上所消耗的总 Token 大幅缩减了超 15%。

CodeBrain-1—— 会动态调整计划与策略的 “大脑”

CodeBrain-1 在 Terminal-Bench 2.0 上的强势表现还不仅仅体现在真实命令行终端（CLI）环境下的端到端任务执行能力。更重要的，团队进一步的赋予了它更高阶的能力 —— 会动态调整计划与策略的 “大脑”，它通过优化任务的执行逻辑和错误反馈机制，显著提升了模型在真实终端环境下的操作成功率。

例如在大多数游戏中，角色的 “智能” 主要由游戏策划与 Gameplay 程序提前定义，包括行为规则、触发条件、状态切换和响应逻辑。这种方式在工程上是可控的，但也存在明显限制：行为往往是静态的、可枚举的；想要表现出 “更聪明” 的反应，通常需要大量手工规则和长期打磨；一旦环境复杂或情况超出预期，智能表现就会迅速退化。这也是为什么高智能特性往往意味着极高的开发与维护成本。

CodeBrain-1 提出了一种不同的解决方式。并非让 AI 直接 “随意发挥”，而是反过来调整分工方式。比如在游戏设计阶段，只由人类定义智能的 “维度” 和 “基调”，将具体行为与策略的生成，交给 AI 在受限空间内动态完成。在这种模式下，设计者不再需要穷举每一种行为，而是定义人类用户在意什么（目标、偏好、性格维度），记住什么（观察、历史、群体经验）以及在什么范围内可以调整计划与策略。CodeBrain-1 则负责在这些约束条件内，动态生成 “智能” 所对应的可执行程序，并根据实际反馈不断调整。

这里的 “计划和策略” 既可以作用在个体层面，也可以作用在群体层面。对个体而言，它意味着角色可以根据自身目标、记忆和观察结果，持续调整日程、行为选择和对他人的态度对群体而言，它意味着一个组织可以形成共享记忆，并基于外部条件变化，调整整体规划和响应规则。

Terminal-Bench 2.0 和 CodeBrain-1 的含金量

Terminal-Bench 是由斯坦福大学与 Laude Institute 共同开发的开源基准测试套件，专门用于评估 AI 智能体在真实命令行终端（CLI）环境下的端到端任务执行能力。相较于传统的代码生成评测，它的核心特点包括：

真实的操作环境：测试在隔离的 Docker 容器中进行，AI 必须像人类工程师一样，在真实的 Linux 环境中进行编译、调试、训练模型或部署服务。
长程硬任务 (Hard Tasks)：包含 89 个精心设计的任务，覆盖软件工程、系统管理、科学计算和数据处理等领域。这些任务通常需要多个步骤，无法通过简单的模式匹配来完成。
严苛的自动验证：每个任务都配备了人类编写的标准答案和自动验证脚本。系统根据任务产出（如生成的证书、修复的代码或运行的服务）进行 0/1 判定，确保结果的可靠性。
2.0 版升级重点：相比 1.0 版本，2.0 显著提升了任务难度和验证的严格程度。目前顶级大模型在该基准上的得分通常低于 65%，暴露出 AI 在处理复杂系统级任务时的瓶颈。

Terminal-Bench 2.0 的任务难度很高，即使是顶尖模型也未能实现完美的解决率。CodeBrain-1 首次上榜就杀到了全球第二的位置，含金量不言而喻。以 GPT 系列模型为例，模型通常具有极强的 Reasoning Chain，但有时会产生 “想得太多” 导致的执行延迟。CodeBrain-1 作为 “节流阀” 和 “校准器”，引导模型只在关键报错点进行深度思考，而在常规 CLI 操作中保持高效率，这也将是拉开大模型商业落地差距的核心技术点。

强大的 Agent 框架可以弥补 “模型” 与 “真实环境” 的鸿沟。打开一个终端，执行命令，捕获报错信息，并将错误反馈给模型让其修正。如果没有这个框架，模型只能 “纸上谈兵”。
Agent 框架在状态管理与长程规划 (Long-term Planning) 上至关重要。Terminal-Bench 2.0 的任务通常包含几十个步骤。基础模型往往容易在复杂的上下文中 “迷路” 或产生幻觉。而 Agent 框架充当了记忆和规划模块。它记录了已经执行过哪些命令、当前目录结构是什么、哪些尝试失败了，确保模型始终朝着最终目标前进。
解决 “自我修正” 循环，这是 CodeBrain-1 的核心价值。在真实终端中，代码运行报错是常态。单纯的只依赖模型可能会陷入循环报错，Agent 框架则引入的推理闭环 (Reasoning Loop)。它会分析 stderr（标准错误输出），通过内置的逻辑过滤干扰信息，只把关键冲突反馈给模型，引导模型实现高效的 “试错 - 改进”。
此外，工具调用标准化和成本与效率优化也不容忽视。模型的能力在不断进化的同时，推理成本昂贵的问题始终无法绕开，Agent 框架通过预处理和结构化提示词，减少了模型所需的上下文长度（Token），让任务执行得既快又省。

OpenAI 在其官网技术博客中明确将 Simple Codex 定义为 “针对长程软件工程任务的最优解”。模型和 Agent 框架的组合似于 “赛车手 + F1 赛车”。好的模型就是那个顶尖的赛车手，而 Agent 框架则是那台专为夺冠调教的赛车。一个能驾驭全球顶尖模型的中国框架，意味着中国团队在 AI 时代的 “高级操作系统” 竞争中正跻身全球更前沿的位置。

大模型商业落地的最后一公里

CodeBrain-1 并不是一个 “更会说话” 的 AI，而是一个由 Code 组成、能够持续调整计划与策略的执行型大脑。

OpenAI 联合创始人 Andrej Karpathy 认为模型作为 AI 的内核至关重要，但 Agent 框架作为 AI 的操作系统也不容忽视。我们不应该只关注模型写代码的能力，更应该关注它在复杂环境中的自主解决问题能力。Sam Altman 在 GPT-5.3-Codex 发布后宣称 Codex 从一个能够编写和审查代码的代理，变成了一个几乎可以执行开发人员和专业人士在计算机上任何操作的代理。

基础模型公司虽然强大，但各行各业的垂直场景都离不开良好的的工程框架，不论是更系统的 Agent 框架还是小而美的开发者效率工具，这些离用户更近一步的机会都暗藏着巨大的商业价值。

AI 的第一波浪潮是模型（Model-centric），而第二波浪潮将是应用与工作流（Workflow-centric）。红杉资本曾预言，未来的胜者是那些能控制工作流的公司，资本无法忽视那些能够将模型能力转化为实际产出的 “强大能力”。

Feeling AI 认为动态交互是世界模型通向 AGI 的终极拼图。他们把世界模型的实现分成了 InteractBrain（理解、记忆与规划），InteractSkill（能力与执行）和 InteractRender（渲染与呈现）三层。MemBrain 几天前刚在Agentic Memory 领域拿下全球 SOTA，CodeBrain 作为会动态调整计划与策略的 “大脑” 又迅速跻身全球前列，“世界模型 InteractBrain” 在一周内被这家创业公司用 “MemBrain+CodeBrain” 两张牌强势证明了。

在 OpenAI 和 Anthropic 主导的生态位下，中国团队作为 “框架定义者” 杀入竞争，这也代表了中国 AI 技术创新路径的独特性。他们看上去在走一条没有捷径的道路，攻破每一城也绝非易事，但这也许正是中国的创业者们孜孜不倦试图回答的 “硬核难题”。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.