网易首页 > 网易号 > 正文 申请入驻

Harness正在如何改变token经济学

0
分享至

过去两年,围绕大模型商业模式的讨论,常常被压缩成一个看似简单的问题:每百万 token究竟多少钱。于是,行业里最常见的比较方式,变成了谁更便宜,谁更省,谁更适合大规模调用。

但是,当智能体开始变成长时运行、分工协作、反复评估的系统之后,token 的价值单位正在发生“漂移”。衡量一个模型,除了看它生成一段文本要花多少钱,还要看它把一个任务可靠做完,最终要花多少钱,而且后者越来越重要。

Anthropic最近用一篇工程文章,探讨了如何为长时间应用开发设计智能体。把单智能体和全套 harness放在同一任务上正面比较,如用 Claude Opus 4.5 做一个 2D 复古游戏制作器时,solo 版本运行 20 分钟,成本 9 美元;全套harness 运行 6 小时,成本 200 美元,表面上贵了二十多倍。

但二者的差别并不只是“一个更贵,一个更慢”,而是结果层级完全不同。单智能体虽然做出了界面,但真正试玩时核心游戏逻辑是坏的,实体不响应输入;全套 harness 则把一句话需求扩展成 16 个功能点、10 个 迭代周期(sprint) 的完整规格,并且做出了更多真正可用的功能,包括动画、行为模板、音效、AI 辅助生成和导出分享。

这个对比揭示出一个新的经济学事实:在智能体时代,token 的主要用途不再只是“把东西生成出来”,而是把一个看似完成的演示,变得真正能用。


也就是说,harness 正在迫使我们从token 单价转向结果单价。在旧范式里,一次调用往往对应一轮问答,token 成本和输出长度大体挂钩,所以价格越低越有优势。可一旦任务变成长时软件开发、复杂工具调用和多轮自我修正,成本的决定因素就不再只是模型输出了多少字,而是系统为了得到一个可靠结果,要经历多少轮规划、执行、测试、返工和重新生成。具体而言,上下文重置虽然能缓解长任务中的一致性崩塌和“上下文焦虑”,但代价是额外的 调度复杂性、token 开销和延迟。换句话说,harness 不是免费的工程包装,而是一种明确增加 token 消耗的结构性投资。

这就引出了 harness 改变token 经济学的第一重机制:它把 token 从内容成本变成了控制成本。

在 Anthropic 的前端设计实验里,生成器和评估器形成了一个循环,评估器用 Playwright MCP 实际操作页面、截图、打分,再把批评反馈给生成器。这样的循环通常会跑 5 到 15 轮,完整一次可持续四小时。这里消耗的大量 token,并不是为了让模型多写几段 HTML,而是为了让模型在一个可验证的反馈回路里不断偏离默认答案,逼近更好的答案。token 的作用从一次性生成,转向了长程控制、外部校验和方向修正;它买到的不是文本,而是路径。

更深一步看,harness 还重排了token 在整个工作流中的分布。数字音乐站(DAW)的实验给出了一组很有启发性的账单。也就是说,在一个复杂智能体式编码系统里,真正吞噬预算的并不是思考和审核,而是做出;但决定这笔大额生成支出是否有效的,恰恰又是那笔相对小得多的规划和验证开销。便宜的规划器与评估器,在某种意义上成了昂贵的构建器的资本监督者。token 经济学因此需要用少量监督 token,约束大量生成 token ,避免浪费。


这正是 harness 改写成本结构的关键所在。过去人们习惯把 质量保障 (QA)、规划、代码审查看成模型之外的附属环节,现在它们本身成了 token消费的一部分,也成了产出质量的一部分。而且评估器发现的,都不是表面瑕疵,而是能直接导致功能失效的深层 bug,例如拖拽填充未真正触发、删除条件判断错误、API 路由顺序导致 422 返回。

单智能体最大的问题,不是风格不够好看,而是会生成看起来像成功、实际上并未打通逻辑的伪成品。harness 的作用,就是用额外 token 把这种“伪完成”打碎,让系统从演示性产出走向可验证产出。于是,token 的边际价值也改变了:最贵的 token 未必最重要,最能减少返工和幻觉的 token 才最值钱。

harness 的价值不是固定的。随着 Claude Opus 4.6 发布,作者开始主动拆除原先在 4.5 时期十分关键的脚手架。Opus 4.6 更会规划、更能维持长时间智能体任务、更能在大代码库中稳定工作,也更擅长代码审核和消除bug。于是,原先依赖迭代拆解和频繁评估器介入的结构,被明显简化了。对那些已经落入Opus 4.6 自身能力边界之内的任务,评估器会变成不必的开销。这说明 harness 并不是越多越好,而是只在模型能力边界附近最有经济价值。模型一旦内生地学会了某些能力,原先承担补偿功能的 harness 组件就会从“投资”变成“税负”。

因此,harness 改变token 经济学的第二重机制,是让成本结构变成动态的、边界驱动的。

每一个 harness 组件,本质上都编码了一个假设:模型单独做不好这件事,所以要用外部结构来补。每个 harness 组件都体现了关于模型自己做不到什么的判断,而这些判断需要不断压力测试,因为模型进步很快,旧假设会迅速过时。于是,今天值得花的 token,明天可能就不值得花了。token 经济学不再是一个固定价目表,而更像一张随模型能力移动的边际收益曲线。

放到商业背景里看,变化会更清楚。Anthropic 当前官方定价已经开始对低延迟、合规性和高能力单独收费。Claude Opus 4.6 的快速模式是标准价的 6 倍,输入和输出分别是每百万 token 30 美元和 150 美元;如果要求美国境内推理,还要在所有 token 类别上加收 1.1 倍。OpenAI也在走类似方向。

再看OpenAI。GPT-5.4 标准短上下文输入为每百万 token 2.50 美元,输出为 15 美元,而一些区域处理还要加收 10%;同时,内建工具所消耗的 token 也是按所选模型的 token 费率计费。这里隐含的商业逻辑是:在智能体时代,用户买的已经不只是“文本生成”,而是速度、验证、工具调用、地域处理和长时执行这些系统能力。harness 越成为主流,token 就越像生产流程中的通用燃料,而不是聊天接口里的字数费用。

所以,harness 正在如何改变token 经济学?它把 token 从一个静态的计量单位,变成了一个动态的组织资源。以前它是关于一次调用用了多少 token;现在是关于这些 token 分别花在了规划、生成、验证、返工和工具调用的哪个环节,它们有没有减少失败、有没有提升完成率、有没有把一个像样的结果推到真正可交付的结果。

在这个意义上,未来最重要的价格指标,可能不再是每百万 token 单价,而是每完成一个真实任务的总成本,每减少一次返工所节省的预算,以及每提高一个成功率百分点所需要付出的边际 token。行业真正在意的,并不是 harness 比单智能体更贵,而是智能体时代真正昂贵的,从来不是 token 本身,而是失败、返工和伪完成。harness 之所以重要,不是因为它让 token 变多了,而是因为它开始决定哪些 token 值得花,哪些 token 只是白白燃烧。

最后,弄懂了harness/token经济学,你还去争论大模型和harness哪个重要吗?

参考:

https://www.anthropic.com/engineering/harness-design-long-running-apps

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个人可以蠢到什么程度?看网友讲诉,我乐出了声还有这情况

一个人可以蠢到什么程度?看网友讲诉,我乐出了声还有这情况

侃神评故事
2026-04-05 11:50:06
大牌又闹脾气消极罢工!上海或爆重大危机,沪迷:真把自己当爷了

大牌又闹脾气消极罢工!上海或爆重大危机,沪迷:真把自己当爷了

后仰大风车
2026-04-04 07:05:11
1965年,山西黄河发现巨龟,行走如百米大山,7人因此命丧黄泉

1965年,山西黄河发现巨龟,行走如百米大山,7人因此命丧黄泉

古怪奇谈录
2025-05-09 14:24:29
房价要变天了?不出意外,2026年二手房价格会迎来4大转变

房价要变天了?不出意外,2026年二手房价格会迎来4大转变

小谈食刻美食
2026-04-05 10:35:01
金昊被执行死刑,最后悔的就是他的母亲张杰了,过度溺爱等于害

金昊被执行死刑,最后悔的就是他的母亲张杰了,过度溺爱等于害

魔都姐姐杂谈
2026-04-05 12:59:20
不怪国内那么多人想娶她,确实漂亮。

不怪国内那么多人想娶她,确实漂亮。

情感大头说说
2026-04-05 18:05:23
大众突然官宣:21.38万,新车正式上市

大众突然官宣:21.38万,新车正式上市

高科技爱好者
2026-04-04 23:19:42
每体:皇马高层给阿韦洛亚下了最后通牒,不进欧冠决赛就下课

每体:皇马高层给阿韦洛亚下了最后通牒,不进欧冠决赛就下课

懂球帝
2026-04-05 17:16:38
刘嘉玲东京晒全家福,80岁老妈优雅惊艳网友

刘嘉玲东京晒全家福,80岁老妈优雅惊艳网友

落雪听梅a
2026-04-05 10:23:26
清明前后,6种蔬菜不要随便买!菜贩子:我从来不吃,顾客抢着买

清明前后,6种蔬菜不要随便买!菜贩子:我从来不吃,顾客抢着买

阿龙美食记
2026-04-02 22:07:37
轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

垚垚分享健康
2026-04-05 08:40:19
上海市中心租金回报翻车.....

上海市中心租金回报翻车.....

新浪财经
2026-04-05 17:52:46
NCAA冠军含金量拉满!康涅狄格四年三次打进决赛,剑指王朝!

NCAA冠军含金量拉满!康涅狄格四年三次打进决赛,剑指王朝!

田先生篮球
2026-04-05 12:03:46
一大早NBA传来4个劲爆消息:湖人遭三重打击,火箭勇士迎来好消息

一大早NBA传来4个劲爆消息:湖人遭三重打击,火箭勇士迎来好消息

毒舌NBA
2026-04-05 07:59:11
特朗普发出通牒后,伊朗加大攻势

特朗普发出通牒后,伊朗加大攻势

参考消息
2026-04-05 10:43:04
王之蔑视都来了!18岁松岛辉空4-0碾碎世界第2 大V:已成国乒大敌

王之蔑视都来了!18岁松岛辉空4-0碾碎世界第2 大V:已成国乒大敌

颜小白的篮球梦
2026-04-04 19:08:38
黄晓明突然晒照!网友:快停!违法了

黄晓明突然晒照!网友:快停!违法了

鲁中晨报
2026-04-05 15:53:14
张本智和哭红双眼!哽咽失声:我难以释怀 日乒被打哭 2天4人落泪

张本智和哭红双眼!哽咽失声:我难以释怀 日乒被打哭 2天4人落泪

念洲
2026-04-05 09:18:56
身材炸裂!NBA 场边的 “人间尤物”,个个颜值能打还不是花瓶

身材炸裂!NBA 场边的 “人间尤物”,个个颜值能打还不是花瓶

橙星文娱
2026-04-05 10:34:51
茶水是心梗加速器;医生:不想心脏出问题,这3种茶一定少喝

茶水是心梗加速器;医生:不想心脏出问题,这3种茶一定少喝

椰青美食分享
2026-04-05 11:57:33
2026-04-05 20:27:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
345文章数 62关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

营救细节公布:伊朗搜捕人员距飞行员藏身地不到3公里

头条要闻

营救细节公布:伊朗搜捕人员距飞行员藏身地不到3公里

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

艺术
健康
旅游
本地
公开课

艺术要闻

全球最长F1赛道要来了,70米高“刀锋弯”初具规模!

干细胞抗衰4大误区,90%的人都中招

旅游要闻

清明假期第二天市属公园迎客87.36万,精细化服务护航春日游园

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版