网易首页 > 网易号 > 正文 申请入驻

Token 刚定了中文名,AI 圈又多了个翻译不了的词

0
分享至

  马上又来了一个亟需被认证的新词 Harness。

  这年头想要在 AI 圈子里当个「全面发展的专业人士」,每天要学习的概念是真的多。从最早一个 ChatGPT 能指代一切 AI,我能知道 ChatGPT 就已经领先身边大多数人。

  到后面慢慢发展到,我要去学习什么是 Prompt,是提示词还是文令、「已死的」MCP,是被 CLI 替代的模型上下文协议、RAG 是风靡一时的检索增强生成、Agent 不是代理,是智能体、Skills 是技能,也是专家、Claude Code 是代码助手。

  还有因为爪子 Claw 得名龙虾的 OpenClaw、以及龙虾太火需要大量消耗的 Token = xxx……

  这些堪比「颗粒度」、「对齐」的职场黑话,如果你都听过,大概率还是能在一些聊 AI 的饭局上稍微显露一波的。

  

  之前 MiniMax M2.7 模型介绍博客里提到的 Agent Harness 能力

  但现在,新的词又来了,什么是 Harness。有网友在社交媒体上用一张淘宝搜索的截图回应,表示「很好理解」。

  

  很离谱,但是我们把 AI 当牛马去指挥它干活,Harness 翻译成套在 AI 身上的马具/束缚,也并不是全无道理。

  其实 Harness 最早被真正放进 Agent 领域,还是在 Anthropic 去年十一月的一篇博客,文章里他们探讨了现在的 Agent 要执行的任务越来越长,需要一个有效的 Harness 来确保 Agent 的运作正常。

  

  博客链接:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

  到了今年本地运行的 Agent 重新搬上台面,一众 AI 开发者和研究员在自己的技术博客里,也频繁提到 Harness 这个词。知名博主 Mitchell 提到 Harness Engineering 的理念是,「每当发现某个智能体犯错时,就花时间设计一个解决方案,确保它以后不再犯同样的错误。」

  紧接着 OpenAI 在今年二月也发了几篇博客,讲的也是 Harness engineering,在他们看来,未来工程师的工作,不是写代码,而是设计智能体的「工作环境」,Harness 就是这个工作环境。

  

  在 OpenAI 官网选择中文后,直接翻译成了「工程技术」,博客链接:https://openai.com/zh-Hans-CN/index/harness-engineering/

  为什么 Harness 开始被重视

  无论是 Anthropic 最早的博客,还是后面 OpenAI 的 Harness 工程,它们在文章里面描述的故事都是一样的。

  Harness 是一种包含环境配置、多 Agents 协作机制、严格架构约束和上下文管理的系统,它弥补了 AI 的「上下文焦虑」和易错性。

  两家顶级 AI 实验室都用大量的内部工程实践证明了,让大模型自主写出百万行代码的关键,并非模型本身有多聪明,而在于构建了一个强大的 Harness(工作流框架 / 护栏系统)。

  

  我们让 Claude 画了一张图,来完整介绍一下 Agent Harness,Harness = Agent 的运行容器 + 安全边界 + 调度控制器

  在 Anthropic 的内部实验中,研究员们发现 AI 竟然也会有「心理问题」。

  当 Claude 执行长周期的代码任务时,一旦它感觉到自己的上下文窗口快要填满了,它就会产生「上下文焦虑」。就像快要下班的打工人,开始疯狂敷衍,试图赶紧结束任务。

  要命的是,Claude 并不觉得自己在敷衍,当研究员要求 AI 评估这些「为了下班赶紧结束任务」所编写的代码时,它发现不了其中的问题。

  面对这种毛病,传统的提示词设计毫无用处。Anthropic 的研究员给出的 Harness 解法是:改变组织架构。

  他设计了一个包含三个角色的 Harness 闭环:

  规划师(Planner):负责把一句话需求扩写成详细的产品文档。

  生成器(Generator):纯粹的牛马,只负责按文档写代码。

  评估器(Evaluator):极其冷酷的 QA 兼产品经理,手握自动化测试工具。

  

  Anthropic 的报告中提到,应用了 Harness 框架的 Agent 在生成网页质量上要好很多,但是成本和时间更长。

  要求是开发一个游戏制作器,没有 Harness 的那组,AI 跑了 20 分钟,花了 9 美元。结果是界面能看,但核心功能是坏的——游戏里的角色出现在屏幕上,但对任何键盘操作都没有反应,游戏没法玩。

  有 Harness 的那组,跑了 6 小时,花了 200 美元。结果是游戏不只是能玩,还有动画系统、音效、AI 辅助的关卡设计。

  在这套 Harness 里,生成器写完一段代码,评估器就会像真实用户一样去点击、测试,一旦发现 Bug 或是那种充满「AI 塑料味」的平庸设计,直接打回重做。

  包括我们经常用来测试 AI Coding 能力的网页生成,Anthropic 也发现,Harness 的潜力相当大。在一个设计荷兰艺术博物馆网页的任务中,前 9 次迭代,AI 都在老老实实地画平庸的网页。

  但在评估器不断施压下,第 10 次迭代,AI 突然抛弃了所有常规模板。它交出了一个特立独行的 3D 空间:画作悬挂在透视棋盘格的房间里,用户需要像走迷宫一样穿梭。

  

  如果说 Anthropic 的 Harness 侧重于组织架构,去探索 Harness 的设计原理,OpenAI 的 Codex 团队则是把这件事做成了一种工程文化,更多地把 Harness 当作一种工作流框架

  他们的核心约束只有一条,那就是没有人工手写的代码。所有代码——业务逻辑、测试、CI 配置、文档、内部工具、生产监控仪表盘——都由 Codex 写。工程师的工作不是写代码,而是设计让 AI 能可靠工作的环境。

  一开始他们用一个超长的 AGENTS.md 文件告诉 AI 所有的规则。但很快就因为上下文限制,导致 AI 只会进行本地模式匹配,没有真正理解。而且文件很快过时,没有人维护,AI 开始被一堆可能不再成立的规则误导。

  

  一套完整的工作流程

  后来的做法是:AGENTS.md 只有 100 行,只充当一个「目录」,把 AI 指向结构化的 docs/ 文件夹。架构文档、产品规格、设计决策、技术债务追踪,全部是可以被 AI 直接读取的版本化文件。每个 doc 由 AI 写,由 AI 维护,定期有「文档园丁」Agent 扫描过时的文档来自动更新。

  他们不在乎 AI 怎么写具体的逻辑,但在 Harness 中设置了极其严格的 Linter(代码检查工具)和物理依赖边界。业务代码只能单向调用,越界就会被系统无情切断,根本合并不进项目主分支。

  在这个 Harness 中,我们所设置的规则,变成了 AI 不可违背的意志。AI 就像生活在「楚门的世界」里,它拥有写代码的绝对自由,但这种自由,永远在人类设定的结界,即 Harness 之内。

  把这些研究放在一起,其实 harness 的本质就是一套系统,用来补偿当前 AI 不擅长的事。

  AI 不擅长长期记忆,Harness 就用进度文件、git 历史、结构化来补。

  AI 评价自己太宽松,用独立的评估 Agent,带着具体标准和真实环境测试。

  AI 在复杂任务里容易偏航,用任务分解、结构化、合约约定来约束范围。

  AI 不具备对代码库架构品味的直觉,因此需要用文档和自动化规范检查,将人类的判断转化为系统规则。

  

  Claude 生成的 Harness 在 AI 领域的位置信息图

  有意思的是,随着模型能力增强,harness 的有些部分会变得不再必要,但新的部分又会出现。

  Anthropic 在升级到 Opus 4.6 之后,发现之前为了对抗「上下文焦虑」设计的「上下文重置」机制可以直接去掉了,因为新模型已经能自己处理了。

  但同时,他们发现了新的方向,用 harness 来让 AI 在应用里自动集成 AI 功能,这是之前模型做不到的事。

  对 Harness 来说,模型越强,Harness 不是变得更简单,而是要去做更难的事

  怎么翻译 Harness

  在那篇询问「继 token、Agent 之后,又来了一个难以翻译的词:Harness」推文下,除了给出那张炸裂的「战术胸带 Harness」截图外,还有很多网友给出了自己的翻译。

  有人说应该叫「线束」,因为这个词在汽车行业已经很多年了。还有「驾驭层」、「驾驭系统」、「Agent 框架」、「控制框架」、「管控层」、「锚定层」、「= Scaffold 脚手架」……

  更有意思的回复是「安全套」、「套马杆」、以及约束牛马该做什么不该做什么的「槽具」。

  

  微博上关于 Harness 怎么翻译的讨论也很多,Token 可以翻译成智元的话,那 Harness 就叫智驭吧……也有人觉得和 MCP 现在无人问津的状态一样,Harness 这个概念只是现在热,过一段时间又会有新的词被造出来、被流行。

  我们问了问 Claude,它给了好几个答案。

  「框架」,它认为很多东西都叫框架,framework 可以,architecture 也可以;「执行框架」,强调了运行层面,但中性,没有「约束」的感觉。

  「驾驭层」中文语境下不太用这种说法;「管控层」强调了「约束」,但是没有「执行」;「套具」在 AI 领域完全是陌生的概念。

  

  所以最后它说比较实用的方案是,不翻译,就用 Harness

  一个概念如果能被一个词完整概括,翻译本来顺理成章的事。Harness 之所以又是一个不容易确定的词,是因为它在 LLM 这套流程里,同时包含了「约束」、「执行」、「环境」、「系统」等几层意思,拆开来哪个都只说对了一半。

  和 Token 最终被认证为「词元」,Harness 大概率也会有自己的官方中文。在那天之前,你在技术文章里看到这个词,知道它在说什么就够了。

  然后在某个聊到 AI 的饭局上,记得说一句,「在未来,会写提示词和 Skills 都不是核心竞争力。真正的顶级人才,是那些懂得如何设计 Harness 的人。」

  关于 Harness 的详细内容,还可以阅读下面这些文章:

  1、Anthropic, Harness design for long-running application development, 适用于长时间运行应用程序开发的 Harness 设计, 2026-03-24, https://www.anthropic.com/engineering/harness-design-long-running-apps

  2、OpenAI, Harness engineering: leveraging Codex in an agent-first world, Harness 工程:在智能体优先的世界中利用 Codex, 2026-02-11, https://openai.com/index/harness-engineering/

  3、Mitchell Hashimoto, My AI Adoption Journey, 我的 AI 应用之旅, 2026-02-05, https://mitchellh.com/writing/my-ai-adoption-journey

  4、OpenAI, Unlocking the Codex harness: how we built the App Server, 解锁 Codex 的 Harness:我们如何构建 App Server, 2026-02-04, https://openai.com/index/unlocking-the-codex-harness/

  5、Anthropic, Effective harnesses for long-running agents, 适用于长期运行 Agents 的有效 Harness, 2025-11-26, https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
石洵瑶零封倪夏莲,林诗栋/黄友政挺进8强 | WTT太原站

石洵瑶零封倪夏莲,林诗栋/黄友政挺进8强 | WTT太原站

乒乓世界
2026-04-09 20:58:20
考虑脱党参选彰化县长? 谢衣凤:现在话不用讲到这

考虑脱党参选彰化县长? 谢衣凤:现在话不用讲到这

郭茂辰海峡传真
2026-04-09 21:56:25
张嘉译西安别墅庆生,染完头发直接年轻10岁,年纪越大越有魅力!

张嘉译西安别墅庆生,染完头发直接年轻10岁,年纪越大越有魅力!

柒佰娱
2026-04-09 09:52:39
中国宁可向美国购买转基因大豆,也不考虑俄罗斯,到底是为什么?

中国宁可向美国购买转基因大豆,也不考虑俄罗斯,到底是为什么?

文史道
2026-03-20 06:45:03
动态丨打虎!66岁姚玉舟被查;太恶劣!已确认全是假的,上海警方通报:7人被控制

动态丨打虎!66岁姚玉舟被查;太恶劣!已确认全是假的,上海警方通报:7人被控制

上海法治声音
2026-04-09 18:54:51
瑜伽裤外穿引发争议,穿着不当或致尴尬局面

瑜伽裤外穿引发争议,穿着不当或致尴尬局面

特约前排观众
2026-03-24 00:15:04
绿电龙头23元跌至4元横盘7年,股息7.5%汇金为何死守

绿电龙头23元跌至4元横盘7年,股息7.5%汇金为何死守

慧眼看世界哈哈
2026-04-09 14:09:17
以军总参谋长:将加大对伊朗的打击力度

以军总参谋长:将加大对伊朗的打击力度

财联社
2026-04-08 00:20:12
降压效果最好的运动,首推这3种,一次几分钟就管用!赶紧收藏

降压效果最好的运动,首推这3种,一次几分钟就管用!赶紧收藏

DrX说
2026-04-09 13:13:03
战火入俄:当“特别军事行动”变成家门口的战争

战火入俄:当“特别军事行动”变成家门口的战争

民间胡扯老哥
2026-03-25 05:26:27
他不抽烟、没“三高”,却突发心梗!“元凶”很多人都忽视了

他不抽烟、没“三高”,却突发心梗!“元凶”很多人都忽视了

大象新闻
2026-04-09 22:49:14
毕业即转行,无数学生被调剂后宁愿没学上也要逃离的几大专业!

毕业即转行,无数学生被调剂后宁愿没学上也要逃离的几大专业!

黯泉
2026-04-09 20:16:02
茅台代销政策落地:部分专卖店生肖等稀缺品“秒空” 小酒“不用抢”

茅台代销政策落地:部分专卖店生肖等稀缺品“秒空” 小酒“不用抢”

财联社
2026-04-09 20:39:04
每吃一次,血管就堵一截?医生:这5种水果是脑梗“加速器”

每吃一次,血管就堵一截?医生:这5种水果是脑梗“加速器”

荆医生科普
2026-04-02 17:35:43
你见过什么事都摆席收红包的亲戚吗?网友:你这姑姑是人间极品

你见过什么事都摆席收红包的亲戚吗?网友:你这姑姑是人间极品

解读热点事件
2026-03-13 00:05:08
“中年男人专供”,围猎年轻女孩

“中年男人专供”,围猎年轻女孩

DT商业观察
2026-04-08 11:56:15
趁你病要你命!郑智遭1-5暴击主场抢分 李金羽上门补刀剑指三连胜

趁你病要你命!郑智遭1-5暴击主场抢分 李金羽上门补刀剑指三连胜

刀锋体育
2026-04-09 09:32:17
弟弟命案二审,姐姐剃光了头发

弟弟命案二审,姐姐剃光了头发

中国新闻周刊
2026-04-09 10:45:15
深圳主帅:约翰逊首节受伤打乱赛前部署,王浩然和阿立兹站出来了

深圳主帅:约翰逊首节受伤打乱赛前部署,王浩然和阿立兹站出来了

狼叔评论
2026-04-09 22:50:11
福建车辆坠河5死后续:原因已找到,3个细节流出,丈夫责任也不小

福建车辆坠河5死后续:原因已找到,3个细节流出,丈夫责任也不小

苗苗情感说
2026-04-09 12:39:58
2026-04-09 23:39:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6288文章数 26818关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

家居
游戏
时尚
艺术
本地

家居要闻

清新自然 复古风尚

《雾隐天途》现已登陆Steam 推荐需要RTX 4070

越来越流行的松弛感穿搭,照着穿就很好看

艺术要闻

庞茂琨 2026油画写生新作

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版