网易首页 > 网易号 > 正文 申请入驻

Meta-Harness让Haiku性能狂飙,甚至追平Opus!

0
分享至


新智元报道

编辑:倾倾

【新智元导读】如果未来的某天,AI智能体可以给自己调参数,修bug,会发生什么?

就在这两天,斯坦福IRIS Lab的博士生Yoonho Lee联合MIT、威斯康星大学的研究者放出一篇新论文,把AI智能体优化的逻辑翻了个个儿。

作者阵容十分豪华。导师是机器人学习明星学者Chelsea Finn,合作者里还有DSPy框架作者Omar Khattab。

曾经,大家卷模型本身的参数量、训练数据、RLHF。但Meta-Harness另辟蹊径:支撑模型运行的那层「脚手架」同样决定生死。

这些东西以前全靠人工调。现在,Meta-Harness让AI自己来干这活。


结果十分完美:Claude Haiku 4.5的成功率达到37.6%,登顶所有Haiku智能体榜首;Claude Opus 4.6更是达到76.4%,仅次于榜一ForgeCode。

模型是商品,Harness决定成败

harness指的是一整套基础设施:系统提示词、工具定义、重试逻辑、上下文管理、子代理协调、生命周期钩子。

模型本身只是个大脑,harness才是让这个大脑能干活的身体。

这个概念在2026年突然爆火,业界终于意识到,同一个模型,换个harness,性能差距可以大到离谱

2月,工程师Can Bölük做了个实验。

他只改编辑格式,不动模型,15个LLM的编码性能提升了5到14个百分点,输出token还减少了约20%。


更夸张的是,GPT-4 Turbo仅仅换了一种编辑格式,准确率就从26%飙升到59%。

同样的模型,性能差了一倍多,唯一变量是harness。

Agent = Model + Harness,成了最热门的趋势

模型提供智能,harness让智能变得有用。

Claude Code、Codex在做同一件事:精心设计harness来弥补模型的短板。

那么问题来了,harness工程目前高度依赖人工。

工程师得手动写提示词、调工具接口、设计重试策略,然后跑测试、看日志、猜哪里出了问题、改代码、再跑测试。

这个循环费时费力,而且很多失败模式根本不是人能轻易诊断的。

Meta-Harness想做的,就是把这个循环自动化。

400倍信息量:AI自己「复盘+迭代」

Meta-Harness尝试着给优化器看更多东西。听起来简单,但这恰恰是过去所有方法的瓶颈。

论文这张对比表,列出了主流文本每一步能看到多少上下文:


Meta-Harness 与主流优化方法的上下文观察量对比。

Self-Refine只看最近一次输出加自我批评,大约1000 token;

OPRO看过去几轮的方案和分数,大约2000 token;

TextGrad、AlphaEvolve、GEPA这些更先进的方法,也就在8000到26000 token之间。

Meta-Harness呢?最高1000万token,差距是400倍。

为什么需要这么多?因为harness工程产生的失败模式,往往藏在执行轨迹的细节里。

一个任务跑失败了,原因可能是十步之前的某个工具调用返回了截断的输出,导致后续推理全歪。

如果优化器只能看到一个「失败」的标量分数,或者一段压缩过的摘要,它根本没法定位问题。

Meta-Harness的做法,是给proposer一个完整的文件系统。

这个文件系统里装着所有历史候选harness的源代码、每一轮的执行轨迹、命令日志、错误信息、超时行为、评分结果。

Proposer可以用grep、cat这些标准工具自己去翻,想看哪个文件就看哪个,想搜哪个关键词就搜哪个。

优化器不再是在固定prompt上做推理,而是一个会检索信息、浏览历史、编辑代码的代理。

proposer用的是Claude Code,它不需要被喂压缩过的信息,它有能力自己决定看什么、怎么看。

整个搜索循环很直白:

  1. Proposer读取文件系统里的历史记录

  2. 分析哪些任务失败了、失败原因是什么

  3. 针对性地重写harness代码

  4. 新harness跑测试,结果写回文件系统

  5. 循环继续


Meta-Harness 核心优化闭环示意图。Proposer 从“包含全部历史经验”的文件系统读取完整轨迹(①),提出新的 Harness 代码 → 结合 LLM 执行任务并评估(②)→ 将 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系统(③),实现自我迭代。

论文展示了一个19任务子集上的搜索过程。

从Terminus-KIRA基线的28.5%起步,到第7轮迭代就涨到了46.5%。


Meta-Harness 在 19 任务子集上的迭代优化过程。从 Terminus-KIRA 基线 28.5% 的成功率起步,第 7 轮迭代达到 46.5%,展示了通过完整执行轨迹诊断实现的高效 harness 优化。

每一轮都基于具体的执行轨迹做「反事实诊断」——如果我当时这样处理,结果会不会不一样?

举个例子,第7轮的改进是在第一次LLM调用之前先跑一条shell命令,把环境依赖信息注入到初始prompt里。

加一条命令,省掉无谓的试错。 这种程度的诊断精度,靠压缩摘要是做不到的。

89个任务,小模型登顶

Meta-Harness分了三个场景做了测试:文本分类、数学推理、代码代理。

代码代理用的基准是TerminalBench-2,它包含89个Docker化任务,覆盖代码翻译、分布式机器学习配置、系统编程、生物信息学、密码分析等领域。

每个任务都是二元评分,跑5次取平均,难度相当高。

因为它们需要长程自主执行、处理复杂依赖、应对截断的终端输出,还得有相当的领域知识。

这个基准被几乎所有主流前沿实验室用来衡量代码代理的实际能力,是继SWE-bench之后又一个被广泛认可的「真实工作」测试集。

Meta-Harness的做法是优化完整的编码harness,包括系统提示词、工具定义、完成检测逻辑、上下文管理,全部都在优化范围内。

Proposer会读取每个任务的执行轨迹,诊断失败模式,然后提出针对性修复。

结果,Claude Haiku 4.5的成功率达到37.6%,在所有Haiku 4.5代理中排名第一,超过第二名Goose的35.5%

Claude Opus 4.6的成功率高达76.4%,在所有Opus 4.6代理中排名第二,仅次于ForgeCode的81.8%

需要强调的是,Haiku是Claude系列里最轻量的版本,参数量远小于Opus。

传统思路下,小模型就是不如大模型,性能天花板是硬伤。

但Meta-Harness证明,通过优化harness,小模型的天花板可以被显著抬高。


Meta-Harness 端到端优化结果总结。(左)在文本分类任务上,Meta-Harness 以极少的评估次数就超越了 ACE、OpenEvolve 等先前方法;(右)在 TerminalBench-2 基准上,Meta-Harness 优化的 Claude Haiku 4.5 harness 达到 37.6% 通过率,超越所有已报道的 Haiku 4.5 harness(包括 Goose 35.5% 和 Terminus-KIRA 33.7%),实现小模型登顶。

不止代码:文本分类和数学推理同样有效

Meta-Harness不只在代码任务上管用。

在文本分类场景下,研究者用了三个数据集:LawBench(215个类别)、Symptom2Disease(22个类别)、USPTO-50k(180个类别),模型是GPT-OSS-120B。

跑了20轮进化迭代,每轮2个候选,总共产出40个候选harness。

最佳发现的harness在测试集上达到48.6%准确率,比之前的SOTA方法ACE高出7.7个百分点

甚至它的成本更低——Meta-Harness只用了45.5K上下文token,而ACE用了203K。


Meta-Harness 在文本分类任务上的表现。

研究者还做了直接对比实验,把Meta-Harness和两个代表性的程序搜索方法放在一起,给同样的proposer和评估预算。

结果是,Meta-Harness用十分之一的评估次数就追平了它们的最终准确率,而最终准确率还比它们高出10个百分点以上。


Harness Optimizer 搜索进度对比。Meta-Harness(红色曲线)在极少的 Harness Evaluations 下快速达到最高性能,显著优于 OpenEvolve、TTTDiscover、ACE 等方法,展现了完整执行轨迹带来的效率优势。

原因就是OpenEvolve和PUCT都把历史压缩成固定的prompt格式,丢掉了执行轨迹。Meta-Harness保留了一切。

在数学推理场景下,Meta-Harness搜索的是检索增强的推理策略。

语料库里有超过50万道题,来自8个开源数据集。

研究者在250道题的搜索集上进化出一个检索harness,然后在200道IMO级别的题目上测试,还额外用了5个搜索时从未见过的模型。

单一发现的检索harness在5个新模型上平均提升了4.7个百分点(从34.1%到38.8%),而且是在模型不变的情况下。


Meta-Harness 检索策略的跨模型迁移能力。

这说明Meta-Harness发现的策略是可迁移的,不是只对特定模型有效的过拟合技巧。

模型能力的竞争正在进入一个新阶段。

过去几年,前沿实验室比的是谁的模型更强、参数更多、训练数据更大、benchmark分数更高。

但现在,GPT-5、Claude 4、Gemini 3在很多任务上已经拉不开太大差距。

真正的差距在哪里?在harness。

同一个模型,配上不同的harness,性能可以差一倍。

而harness工程目前还高度依赖人工经验,没有系统化的方法论,也没有自动化的工具。

模型是智能的来源,harness是智能的放大器,而现在,优化harness本身也可以交给AI来做。

这可能是LLM应用开发进入下一阶段的标志。

参考资料:

https://x.com/yoonholeee/status/2038640635482456118

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西汉姆球迷提前离场后被拒绝重新入场,只能靠直播看点球大战

西汉姆球迷提前离场后被拒绝重新入场,只能靠直播看点球大战

懂球帝
2026-04-06 21:56:20
火腿肠三巨头的衰落告诉我们什么:产品没变,时代变了

火腿肠三巨头的衰落告诉我们什么:产品没变,时代变了

富贵说
2026-04-05 18:42:13
法国冠军车手锐评张雪机车夺冠,7字一针见血,字字直戳国人心窝

法国冠军车手锐评张雪机车夺冠,7字一针见血,字字直戳国人心窝

以茶带书
2026-04-06 14:11:13
活久见!网传一男子离婚后,以年薪10万雇前妻带娃,创业成功逆袭

活久见!网传一男子离婚后,以年薪10万雇前妻带娃,创业成功逆袭

火山詩话
2026-04-01 09:21:04
与黑鹰行动相比,美军此次成功解救飞行员,是川普军事改革的胜利

与黑鹰行动相比,美军此次成功解救飞行员,是川普军事改革的胜利

壹家言
2026-04-06 07:52:53
400万架无人机:乌克兰用平民智慧,把战争打成数字游戏

400万架无人机:乌克兰用平民智慧,把战争打成数字游戏

老马拉车莫少装
2026-03-30 17:01:31
美国取缔多名伊朗高官亲属绿卡

美国取缔多名伊朗高官亲属绿卡

名人苟或
2026-04-06 06:02:45
特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只有一个

特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只有一个

小嵩
2026-04-07 00:08:00
没时间了,80岁特朗普病危住院?美国政界地震,内阁恐大规模改组

没时间了,80岁特朗普病危住院?美国政界地震,内阁恐大规模改组

潋滟晴方DAY
2026-04-07 03:31:09
太可怕了!郭麒麟被聚会朋友偷拍发上网,网友:谁还敢交朋友?

太可怕了!郭麒麟被聚会朋友偷拍发上网,网友:谁还敢交朋友?

子芫伴你成长
2026-04-05 22:43:24
65岁女人大实话:男人过了70岁,只剩下两个“用处”

65岁女人大实话:男人过了70岁,只剩下两个“用处”

蝉吟槐蕊
2026-04-06 18:14:41
台湾普通家庭到底啥水平?我去了才知道,答案很现实也让人意外

台湾普通家庭到底啥水平?我去了才知道,答案很现实也让人意外

复转这些年
2026-04-06 23:34:04
清明后多吃这“碱性菜”,一通便、二祛湿、三强免疫、四健脾胃

清明后多吃这“碱性菜”,一通便、二祛湿、三强免疫、四健脾胃

阿龙美食记
2026-04-06 12:27:05
张雪妈妈何琼,厦大中文系毕业的作家,客居福建,为儿子抵押房子

张雪妈妈何琼,厦大中文系毕业的作家,客居福建,为儿子抵押房子

晓徙娱乐
2026-04-07 02:29:48
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
张雪未提车 陈光标晒出捐给嫣然1000万元汇款单 张雪回应:标哥真男人

张雪未提车 陈光标晒出捐给嫣然1000万元汇款单 张雪回应:标哥真男人

快科技
2026-04-06 18:56:10
染发致癌是真的吗?哈佛大学调查11万人长达36年,结论终于出来了

染发致癌是真的吗?哈佛大学调查11万人长达36年,结论终于出来了

健康科普365
2026-04-06 22:25:05
形势开始大变!西方媒体集体改口:中国已无需再向世界证明什么?

形势开始大变!西方媒体集体改口:中国已无需再向世界证明什么?

杰丝聊古今
2026-04-07 02:52:02
乌克兰摧毁俄罗斯第四大炼油厂!俄弹道导弹工厂被迫后撤

乌克兰摧毁俄罗斯第四大炼油厂!俄弹道导弹工厂被迫后撤

项鹏飞
2026-04-05 20:56:33
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
2026-04-07 04:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14910文章数 66753关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

头条要闻

特朗普:一夜就能拿下伊朗 可能就是周二晚上

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

房产
游戏
手机
公开课
军事航空

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

一人开发!国产独立游戏《破晓》4月9日发售

手机要闻

OPPO Find X9s Pro真机现身,还有银色哈苏专业增距镜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:在C-130运输机残骸中发现一具美军士兵遗体

无障碍浏览 进入关怀版