网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

一些大模型，高分低能，为何？

2026-01-06 17:25:38　来源: 赛博禅心

北京举报

0

分享至

这篇文章的思路来自 Philipp Schmid，由 minghao 推荐
https://www.philschmid.de/agent-harness-2026

很多人，会有这个体验
有些模型，在排行榜上分数很高，但实际用起来经常翻车
问个问题还行，让干活就开始犯蠢

原因很简单

排行榜测的是单轮能力，或者几轮简单交互

但真实场景里，你让 Agent 跑一个复杂任务，可能要调用几十上百次工具，跑几个小时

排行榜 1% 的差距，测不出 50 步之后的差异

这就是「持久性」问题

有些模型，可能足够聪明，一两次尝试就能解开难题
但跑了一个小时后，可能无法遵循最初的指令，或者在中间步骤的推理出错

怎么解决？
Philipp Schmid 提了一个概念，叫 Agent Harness

Harness 是什么

Harness 本意是马具、挽具，引申为「驾驭某物的装置」

软件领域最常见的用法是 test harness 测试框架

Agent Harness 是同样的思路：
包裹在 AI 模型外层，管理 Agent 长周期运行的基础设施层

用计算机来类比：

模型是 CPU，提供原始算力

上下文窗口是内存，有限的、易失的工作记忆

Agent Harness 是操作系统，管理上下文、处理启动流程、提供标准驱动

Agent 是应用程序，运行在操作系统之上的具体用户逻辑

Philipp Schmid 画的示意图，一目了然

Harness 的层级比 Agent 框架更高

框架提供的是构建模块，工具接口、Agent 循环的实现

Harness 提供的是预设 Prompt、工具调用的规范化处理、生命周期钩子，以及开箱即用的能力，规划、文件系统访问、子 Agent 管理

对开发者来说，这意味着可以跳过「造操作系统」，直接专注于定义 Agent 的独特逻辑

目前通用型 Harness 还很少。Claude Code 是这个品类的典型代表，Claude Agent SDK 和 LangChain DeepAgents 也在尝试标准化

Harness 能做三件事

验证真实进展
新模型频繁发布，Harness 让用户能快速测试最新模型在自己场景下的表现，而不是看排行榜猜

释放模型潜力
没有 Harness，用户体验可能落后于模型能力。好的 Harness 让开发者能用经过验证的工具和最佳实践来构建 Agent

创造反馈闭环
Harness 把模糊的、多步骤的 Agent 工作流转化为可记录、可评分的结构化数据。哪一步出了问题，一目了然

苦涩教训

Rich Sutton 写过一篇文章叫《苦涩的教训》

核心观点：利用算力的通用方法，每次都能打败手工编码的人类知识

这个教训正在 Agent 开发领域上演

Manus 在六个月内重构了五次 Harness，去除僵化的假设

LangChain 一年内重新架构了三次「Open Deep Research」Agent

Vercel 砍掉了 80% 的 Agent 工具，换来更少的步骤、更少的 Token、更快的响应

每次新模型发布，都有不同的最优 Agent 架构方式

2024 年需要复杂手工流水线的能力，到 2026 年可能只需要一个上下文窗口内的 Prompt 就能搞定

如果过度设计控制流，下一次模型更新就会让系统崩溃

怎么做

至于该怎么做，原作者给到了三条原则：

从简单开始
不要构建庞大的控制流。提供健壮的原子工具，让模型自己规划。实现护栏、重试和验证

为删除而构建
让架构模块化。新模型会替代你的逻辑，必须随时准备好撕掉代码

Harness 就是数据集
竞争优势不再是 Prompt，而是 Harness 捕获的轨迹数据。每一次 Agent 在工作流后期未能遵循指令的失败案例，都可以用来训练下一代模型

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

机器之心Pro 2026-01-13 14:54:45
0 跟贴 0
DeepSeek-OCR是「长文本理解」未来方向？中科院VTCBench给出答案

机器之心Pro 2026-01-13 14:48:50
1 跟贴 1

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

机器之心Pro 2026-01-13 12:57:27
1 跟贴 1

反转太快！「死了么」改名遭全网质疑，这波操作太打脸了

雷科技 2026-01-14 12:08:52
2 跟贴 2
字节AI出海进入新阶段

钛媒体APP 2026-01-14 08:17:15
11 跟贴 11

独一份！带动效的 PPT 生成 Agent！使用教学&创作思路

歸藏的AI工具箱 2026-01-13 15:29:21
0 跟贴 0

设计联十四年了：从好看，到好用，到可被未来调用

设计联 2026-01-11 19:29:17
0 跟贴 0
Claude自己写出Claude！2小时干完两月活，人类在工位上多余了？

新智元 2026-01-14 13:28:04
737 跟贴 737

再见，程序员！硅谷全员AI Coding，卡帕西宣告9级地震来了

新智元 2026-01-14 20:21:03
46 跟贴 46
大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0
不用额外缓存！英伟达开源记忆压缩方案，128K上下文提速2.7倍

量子位 2026-01-14 14:07:25
2 跟贴 2
Nature系列综述：AI智能体重塑癌症研究与治疗

生物世界 2026-01-14 08:20:34
0 跟贴 0
Sebastian Raschka 2026预测:Transformer统治依旧,扩散模型崛起

机器之心Pro 2026-01-14 14:41:17
0 跟贴 0
新来的车床师傅，干2个月走之后，把所有机床程序删除了！

夜归爱生活 2026-01-14 08:57:15
8 跟贴 8
5行代码，逼疯整个硅谷！澳洲放羊大叔，捅开AI编程奇点

新智元 2026-01-14 17:38:10
22 跟贴 22
Agent时代，为什么多模态数据湖是必选项？

机器之心Pro 2026-01-15 10:23:40
0 跟贴 0
美媒：美国将暂停对75个国家的所有签证

新华社 2026-01-14 22:40:07
16104 跟贴 16104
AI的入口变革与供给爆炸将重塑互联网产业逻辑

钛媒体APP 2026-01-14 08:37:31
0 跟贴 0
应用程序收集个人信息和无人机解禁、几个美国消息和伊朗后续发展

北方老陈 2026-01-12 16:34:09
144 跟贴 144
刘震云太敢说！没钱没势没背景，普通人逆袭的底层逻辑！

品茶悟浮沉 2026-01-14 00:37:42
66 跟贴 66
Anthropic创始人盛赞Meta：开启广告基础设施「智能体进化」时代

新智元 2026-01-14 20:22:04
4 跟贴 4
学霸思维训练：利用梯形的一半模型就能搞定

公考客栈店小二 2026-01-13 18:00:00
0 跟贴 0
特斯拉将停售FSD买断版全面转向订阅制模式

界面新闻 2026-01-14 16:49:51
931 跟贴 931
学霸思维训练：用沙漏模型和蝴蝶模型求解

公考客栈店小二 2026-01-11 18:00:00
0 跟贴 0
创造历史！中国U23男足首进亚洲杯淘汰赛

央视新闻客户端 2026-01-14 21:28:41
3303 跟贴 3303
媒体：美国急着抢台积电给出的理由是两岸统一近了

台海网 2026-01-14 12:19:02
562 跟贴 562
唐方裕已任中央政策研究室主任

界面新闻 2026-01-15 07:28:11
22 跟贴 22
肖战反套路选剧逻辑：郑晓龙+正午阳光都押他

一文热点捕手 2026-01-14 10:39:45
0 跟贴 0
深圳教育局回应“网传将推行12年义务教育”

鲁中晨报 2026-01-14 17:31:15
820 跟贴 820
Unity 中国资源商店推荐系列 | Dynamic Bone - 赋予角色新生机

Unity 2026-01-13 19:05:10
0 跟贴 0
美国一航母打击群正被调往中东和中亚地区

财联社 2026-01-15 08:07:32
2022 跟贴 2022
泽连斯基推进乌美安全保障文件审议，盼俄明确停战态度

感恩每日相伴 2026-01-14 04:21:11
0 跟贴 0
国产新型航母模型疑曝光！舷号19清晰可见，却有3大疑点？

儒雅随和老泰勒 2026-01-12 16:49:53
0 跟贴 0
OpenAI签下近700亿AI芯片巨单！

智东西 2026-01-15 09:58:13
0 跟贴 0
聂卫平培养出古力柯洁等顶尖棋手

北京青年报 2026-01-15 09:09:18
652 跟贴 652
高知人群的购车逻辑，你了解吗

TD数码老师 2026-01-14 14:00:32
5 跟贴 5
房地产仍有较大空间，但财富逻辑变了

纪超讲楼市 2026-01-12 14:12:00
0 跟贴 0
行业最大规模具身数据集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
小车定速巡航故障时速100狂奔至油尽

极目新闻 2026-01-14 11:55:39
2029 跟贴 2029

昂首出线！裁判太黑了，国足U23创造历史，李昊光环：远超王钰栋

昂首出线！裁判太黑了，国足U23创造历史，李昊光环：远超王钰栋

话体坛

2026-01-14 22:02:12

蒋介石终发现，最危险内奸非吴石，而是常接触核心机密的意外之人

蒋介石终发现，最危险内奸非吴石，而是常接触核心机密的意外之人

唠叨说历史

2026-01-13 16:03:47

官方：加拉格尔为马竞留下巨额资金

官方：加拉格尔为马竞留下巨额资金

绿茵情报局

2026-01-15 01:17:15

太厉害了！快去用中医诊断航空发动机吧

太厉害了！快去用中医诊断航空发动机吧

走读新生

2026-01-12 11:00:04

董宇辉卖顾家沙发，单产品过亿，为什么消费者和从业者都不满？

董宇辉卖顾家沙发，单产品过亿，为什么消费者和从业者都不满？

娱乐资本论

2026-01-13 15:13:22

演完赵今麦表弟，又演黄晓明儿子，16岁韩昊霖长得越来越有型了

演完赵今麦表弟，又演黄晓明儿子，16岁韩昊霖长得越来越有型了

徐帮阳

2026-01-14 18:48:01

关税突发，美国宣布：对特定半导体等加征25%关税！特朗普称将“观望”伊朗局势发展，国际油价大幅震荡！纳指收跌1%，美联储重磅报告发布

关税突发，美国宣布：对特定半导体等加征25%关税！特朗普称将“观望”伊朗局势发展，国际油价大幅震荡！纳指收跌1%，美联储重磅报告发布

每日经济新闻

2026-01-15 09:52:06

我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度！保持警惕

我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度！保持警惕

吕醿极限手工

2026-01-09 21:45:13

肖战升任国乒队副总教练！前女友是陈静，儿子是演员，再婚也幸福

肖战升任国乒队副总教练！前女友是陈静，儿子是演员，再婚也幸福

观察鉴娱

2026-01-14 09:17:59

顺水推舟，Shams：特雷-杨至少休战到全明星赛后，奇才很谨慎

顺水推舟，Shams：特雷-杨至少休战到全明星赛后，奇才很谨慎

懂球帝

2026-01-15 10:41:33

1996年，已经是30年前了

最爱历史

2026-01-02 13:41:55

短短3天两冠梦碎！皇马更衣室一片死寂：佛爷准备找新帅

短短3天两冠梦碎！皇马更衣室一片死寂：佛爷准备找新帅

叶青足球世界

2026-01-15 08:39:53

辽篮外援亨特什么“关系”搞来的为什么越换越“水”

辽篮外援亨特什么“关系”搞来的为什么越换越“水”

体坛八卦掌

2026-01-15 10:29:10

触目惊心——伊朗抗议者遇难者增至2万人，1.8万人被捕

触目惊心——伊朗抗议者遇难者增至2万人，1.8万人被捕

史政先锋

2026-01-14 16:36:18

美国人意识到，贸易战之后，不会再有中国外的大规模工业化国家了

美国人意识到，贸易战之后，不会再有中国外的大规模工业化国家了

沧海旅行家

2026-01-14 14:44:50

迫于欧美的压力，伊朗政府宣布暂停处决

迫于欧美的压力，伊朗政府宣布暂停处决

一种观点

2026-01-15 08:56:47

周杰伦止步首轮！业余球员斩获一球制胜冠军：奖金471万淘汰辛纳

周杰伦止步首轮！业余球员斩获一球制胜冠军：奖金471万淘汰辛纳

风过乡

2026-01-14 20:00:30

2026年央视春晚首次彩排顺利落幕，全名单出炉！圈内人曝9大看点

2026年央视春晚首次彩排顺利落幕，全名单出炉！圈内人曝9大看点

除夕烟火灿烂

2026-01-14 10:08:45

去年国内狂犬病发病及死亡数创五年内新高

去年国内狂犬病发病及死亡数创五年内新高

界面新闻

2026-01-14 18:23:47

郭富城大房：掌管郭富城20亿身家，却30年没有名分，甘愿为郭带娃

郭富城大房：掌管郭富城20亿身家，却30年没有名分，甘愿为郭带娃

玥来玥好讲故事

2025-12-27 17:01:58

拜AI古佛，修赛博禅心

258文章数 13关注度

往期回顾全部

科技要闻

反垄断大棒，为何砸向了携程

头条要闻

聂卫平女儿：父亲明明恢复好了为什么上天这样无情

头条要闻

聂卫平女儿：父亲明明恢复好了为什么上天这样无情

体育要闻

你是个好球员，我们就拿你交易吧

娱乐要闻

赵又廷高圆圆婚后11年谈夫妻生活

财经要闻

“疯狂的白银”，还能走多远？

汽车要闻

曝Model Y或降到20万以内！

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

游戏

教育

公开课

本地新闻

邵阳公益诉讼检察主题曲：《守望星》

家居要闻

心之所向现代建构之美

玩家反馈推动决定：制作人谈《生化9》重回浣熊市

教育要闻

遇到校园冲突如何应对？教会孩子勇敢说“不”

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版