网易首页 > 网易号 > 正文 申请入驻

一些大模型,高分低能,为何?

0
分享至

这篇文章的思路来自 Philipp Schmid,由 minghao 推荐
https://www.philschmid.de/agent-harness-2026

很多人,会有这个体验
有些模型,在排行榜上分数很高,但实际用起来经常翻车
问个问题还行,让干活就开始犯蠢

原因很简单

排行榜测的是单轮能力,或者几轮简单交互

但真实场景里,你让 Agent 跑一个复杂任务,可能要调用几十上百次工具,跑几个小时

排行榜 1% 的差距,测不出 50 步之后的差异

这就是「持久性」问题

有些模型,可能足够聪明,一两次尝试就能解开难题
但跑了一个小时后,可能无法遵循最初的指令,或者在中间步骤的推理出错

怎么解决?
Philipp Schmid 提了一个概念,叫 Agent Harness

Harness 是什么

Harness 本意是马具、挽具,引申为「驾驭某物的装置」

软件领域最常见的用法是 test harness 测试框架

Agent Harness 是同样的思路:
包裹在 AI 模型外层,管理 Agent 长周期运行的基础设施层

用计算机来类比:

模型是 CPU,提供原始算力

上下文窗口是内存,有限的、易失的工作记忆

Agent Harness 是操作系统,管理上下文、处理启动流程、提供标准驱动

Agent 是应用程序,运行在操作系统之上的具体用户逻辑


Philipp Schmid 画的示意图,一目了然

Harness 的层级比 Agent 框架更高

框架提供的是构建模块,工具接口、Agent 循环的实现

Harness 提供的是预设 Prompt、工具调用的规范化处理、生命周期钩子,以及开箱即用的能力,规划、文件系统访问、子 Agent 管理

对开发者来说,这意味着可以跳过「造操作系统」,直接专注于定义 Agent 的独特逻辑

目前通用型 Harness 还很少。Claude Code 是这个品类的典型代表,Claude Agent SDK 和 LangChain DeepAgents 也在尝试标准化

Harness 能做三件事

验证真实进展
新模型频繁发布,Harness 让用户能快速测试最新模型在自己场景下的表现,而不是看排行榜猜

释放模型潜力
没有 Harness,用户体验可能落后于模型能力。好的 Harness 让开发者能用经过验证的工具和最佳实践来构建 Agent

创造反馈闭环
Harness 把模糊的、多步骤的 Agent 工作流转化为可记录、可评分的结构化数据。哪一步出了问题,一目了然

苦涩教训

Rich Sutton 写过一篇文章叫《苦涩的教训

核心观点:利用算力的通用方法,每次都能打败手工编码的人类知识

这个教训正在 Agent 开发领域上演

Manus 在六个月内重构了五次 Harness,去除僵化的假设

LangChain 一年内重新架构了三次「Open Deep Research」Agent

Vercel 砍掉了 80% 的 Agent 工具,换来更少的步骤、更少的 Token、更快的响应

每次新模型发布,都有不同的最优 Agent 架构方式

2024 年需要复杂手工流水线的能力,到 2026 年可能只需要一个上下文窗口内的 Prompt 就能搞定

如果过度设计控制流,下一次模型更新就会让系统崩溃

怎么做

至于该怎么做,原作者给到了三条原则:

从简单开始
不要构建庞大的控制流。提供健壮的原子工具,让模型自己规划。实现护栏、重试和验证

为删除而构建
让架构模块化。新模型会替代你的逻辑,必须随时准备好撕掉代码

Harness 就是数据集
竞争优势不再是 Prompt,而是 Harness 捕获的轨迹数据。每一次 Agent 在工作流后期未能遵循指令的失败案例,都可以用来训练下一代模型

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
昂首出线!裁判太黑了,国足U23创造历史,李昊光环:远超王钰栋

昂首出线!裁判太黑了,国足U23创造历史,李昊光环:远超王钰栋

话体坛
2026-01-14 22:02:12
蒋介石终发现,最危险内奸非吴石,而是常接触核心机密的意外之人

蒋介石终发现,最危险内奸非吴石,而是常接触核心机密的意外之人

唠叨说历史
2026-01-13 16:03:47
官方:加拉格尔为马竞留下巨额资金

官方:加拉格尔为马竞留下巨额资金

绿茵情报局
2026-01-15 01:17:15
太厉害了!快去用中医诊断航空发动机吧

太厉害了!快去用中医诊断航空发动机吧

走读新生
2026-01-12 11:00:04
董宇辉卖顾家沙发,单产品过亿,为什么消费者和从业者都不满?

董宇辉卖顾家沙发,单产品过亿,为什么消费者和从业者都不满?

娱乐资本论
2026-01-13 15:13:22
演完赵今麦表弟,又演黄晓明儿子,16岁韩昊霖长得越来越有型了

演完赵今麦表弟,又演黄晓明儿子,16岁韩昊霖长得越来越有型了

徐帮阳
2026-01-14 18:48:01
关税突发,美国宣布:对特定半导体等加征25%关税!特朗普称将“观望”伊朗局势发展,国际油价大幅震荡!纳指收跌1%,美联储重磅报告发布

关税突发,美国宣布:对特定半导体等加征25%关税!特朗普称将“观望”伊朗局势发展,国际油价大幅震荡!纳指收跌1%,美联储重磅报告发布

每日经济新闻
2026-01-15 09:52:06
我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度!保持警惕

我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度!保持警惕

吕醿极限手工
2026-01-09 21:45:13
肖战升任国乒队副总教练!前女友是陈静,儿子是演员,再婚也幸福

肖战升任国乒队副总教练!前女友是陈静,儿子是演员,再婚也幸福

观察鉴娱
2026-01-14 09:17:59
顺水推舟,Shams:特雷-杨至少休战到全明星赛后,奇才很谨慎

顺水推舟,Shams:特雷-杨至少休战到全明星赛后,奇才很谨慎

懂球帝
2026-01-15 10:41:33
1996年,已经是30年前了

1996年,已经是30年前了

最爱历史
2026-01-02 13:41:55
短短3天 两冠梦碎!皇马更衣室一片死寂:佛爷准备找新帅

短短3天 两冠梦碎!皇马更衣室一片死寂:佛爷准备找新帅

叶青足球世界
2026-01-15 08:39:53
辽篮外援亨特什么“关系”搞来的 为什么越换越“水”

辽篮外援亨特什么“关系”搞来的 为什么越换越“水”

体坛八卦掌
2026-01-15 10:29:10
触目惊心——伊朗抗议者遇难者增至2万人,1.8万人被捕

触目惊心——伊朗抗议者遇难者增至2万人,1.8万人被捕

史政先锋
2026-01-14 16:36:18
美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

沧海旅行家
2026-01-14 14:44:50
迫于欧美的压力,伊朗政府宣布暂停处决

迫于欧美的压力,伊朗政府宣布暂停处决

一种观点
2026-01-15 08:56:47
周杰伦止步首轮!业余球员斩获一球制胜冠军:奖金471万 淘汰辛纳

周杰伦止步首轮!业余球员斩获一球制胜冠军:奖金471万 淘汰辛纳

风过乡
2026-01-14 20:00:30
2026年央视春晚首次彩排顺利落幕,全名单出炉!圈内人曝9大看点

2026年央视春晚首次彩排顺利落幕,全名单出炉!圈内人曝9大看点

除夕烟火灿烂
2026-01-14 10:08:45
去年国内狂犬病发病及死亡数创五年内新高

去年国内狂犬病发病及死亡数创五年内新高

界面新闻
2026-01-14 18:23:47
郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

玥来玥好讲故事
2025-12-27 17:01:58
2026-01-15 11:04:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
258文章数 13关注度
往期回顾 全部

科技要闻

反垄断大棒,为何砸向了携程

头条要闻

聂卫平女儿:父亲明明恢复好了 为什么上天这样无情

头条要闻

聂卫平女儿:父亲明明恢复好了 为什么上天这样无情

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

赵又廷高圆圆婚后11年谈夫妻生活

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

曝Model Y或降到20万以内!

态度原创

本地
家居
游戏
教育
公开课

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

家居要闻

心之所向 现代建构之美

玩家反馈推动决定:制作人谈《生化9》重回浣熊市

教育要闻

遇到校园冲突如何应对?教会孩子勇敢说“不”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版