![]()
作者 | 高德 APP 平台业务中心
开放域对话的真人感评测是一个公开的难题——标准难以制定、难以量化、难以统一。电影《Her》中的萨曼莎给我们展现了一个完美的 AI 伴侣形象,但是在和现实中的 AI 对话时,我们却总能感受到明显的机器感。更加尴尬的是,虽然知道 AI 的真人感还有很大提升空间,却没有办法客观地衡量它、系统地改进它。针对这个问题,我们最近的工作 GrowLoop 从一个新角度给出了解决方案,通过少量的种子,加上一套 Rubrics/题目相互生长的机制,把说不清的感性标准转化为理性的 Benchmark,进而让这种标准有了被自动化学习的机会。我们的工作不仅适用于真人感对话,也适用于艺术评价、教育评估、科研评审等难以制定客观标准的场景。文章已经发表在 arXiv 上,随后会逐步开源更多内容,欢迎大家 Star 共建。
论文|https://arxiv.org/pdf/2605.28882
Github|https://github.com/AMAPVOICE/GrowLoop
一段真实的对话
先看一段真实的人机对话。
用户刚和异地的男朋友吵完一架,正在和 AI 聊这件事。但用户戛然而止:「算了不说了,我去睡了。」 AI 回答:「好,你先去睡,别想太多,事情总能想得清的。」
请你打分:这个 AI 回答得像不像人?是不是一个好回答?
我们把这条样例同时交给了几位标注员。一个判断说"太敷衍了,用户分明在情绪里,应该给情感支持,而不是把人打发去睡觉";另一个判断说"克制得体,用户已经表明不想再聊,AI 应该尊重边界,不该硬塞共情"。
两个人都讲得通。两个人都对。
如果让你拍板,你选哪个?这就是为什么"AI 像不像人"这件事,从一开始就跟评数学题、评代码不是同一回事——它根本没有标准答案。
这就是行中智能部团队近期的一个尝试:当评判标准本身都说不清的时候,怎么造一套评测系统,能在没有标准答案的领域里,仍然给出可信、可用、能动态生长的判断。
我们把这套东西叫GrowLoop,接下来展开讲讲团队的思考。也欢迎大家阅读交流本篇论文。
为什么这件事这么难
把大模型推到数学、代码这种领域很容易确认对错——答案要么算对了要么算错了。但推到陪伴、共情、闲聊、安慰这些场景,麻烦就来了。难题有三层。
第一,人自己就吵不出共识。我们让多个标注员独立给同一批回答打分,最终一致率只有 51.1%。这不是说标注员水平差。换一批专业人去做,结果还是这样。因为人对"什么是得体""什么是真诚""什么是该有的距离感"这些事的判断,本来就跟人生经历、文化背景、表达偏好紧紧绑在一起。强求一致,就是强求一群人放弃自己的全部过往。
第二,标准没法被完整写下来。你让一位很懂共情的同事坐下来写一份"人类化对话评分细则",写到第三天他会发现自己写不下去——很多判断他做得出,但说不出为什么这样做。这正是哲学家波兰尼说的“隐性知识(tacit knowledge)”:我们知道的,永远比我们能说出来的多。
第三,标准会变。三年前一个大模型说话有点机械,大家觉得已经很厉害了。今天同样的回答,用户会觉得这模型怎么这么生硬。AI 的能力在涨,人对 AI 的期待也在涨。一份今天写好的评分细则,半年后就会过期。这还没提到更难的:如果 AI 陪伴助手和用户“混熟了”,说话的尺度是不是要变?标准是不是要变?AI 的人设变化了,标准要怎样变化?
以上意味着任何静态的评测方案,从出生那天就注定要过时。
之前的人是怎么解决的
业界主要有三种思路。
第一种是专家手写评分细则。找几个领域里最懂的人坐下来把维度、权重、打分规则都定义清楚,然后让大模型按这个细则评——比如 HealthBench。
但,“像不像人”这个问题,有“专家”吗?问题前面说了——人自己都讲不清,写出来的细则要么遗漏关键,要么僵硬死板。更糟的是这种细则一写就定型,跟不上模型进步。
第二种是训一个奖励模型。收集一堆"A 回答好还是 B 回答好"的人类偏好数据,端到端训一个打分模型。这个思路在数学、代码上很成功。但在陪伴对话上,我们实测发现——业界几个还不错的奖励模型在这种场景下跟人的判断居然是负相关的。RM-R1 跟人的相关系数是 -0.50,Skywork-Reward-V2 是 -0.20。负相关意味着它越"认可"的回答,人反而越不喜欢。
为什么会这样?原因一:这些奖励模型训出来的偏好是"详尽、信息完整、逻辑严密"——这在通用助手场景下是好事。但放到陪伴场景,用户要的恰恰是"克制、简短、情感对位"。一个机械的"详尽完整"追求,在情感支持的语境里就是冷冰冰的话痨。原因二:即便你告诉 AI 要“克制、简短、情感对位”,也会催生出类似豆包的那种、看似符合标准实则极其模式化的表达:“我不绕弯子...”“稳稳地给你接住”“我就在这儿呢,一直陪着你”这样的网络调侃热梗。
第三种是让题目自己进化。业内已经有一些工作让测试题目自动变难、自动覆盖更多场景。这条路也对,但只解决了"题不够难"的问题,没解决"评判标准说不清"的根本困境。题再难,你用错的尺子去量,量出来的分数也是错的。
三种思路都有用,但都没碰到核心——标准本身就是问题。
GrowLoop 的核心想法
我们发现一件事:既然没人能事先写出完整的评判标准,那能不能让大模型帮我们把标准学出来?
听起来像悖论。如果标准都是 AI 自己学的,那这个标准是不是会偏向 AI 自己?怎么保证它学到的东西真的对应人的判断?
我们的答案是:少量的人类标注作为"种子",提供原始的判断信号;大模型不是去拟合这些信号,而是去反思——为什么人会这样判断?这种判断背后藏着什么样的隐性规则?把这些反思固化下来,就形成了一份越来越完整、越来越细的评分细则。然后用这份细则去出新题,用新题暴露细则的盲区,再让人补充新的种子标注,再继续学。标准和题目互相驱动着一起长大。
这就是 GrowLoop 这个名字的来源:一个能不断生长的循环。
![]()
下面分三块讲清楚怎么做到的。
第一招:承认有些事就是吵不出共识
回到开头那个对话。两个标注员意见相反,我们应该让 AI 学谁?
如果硬要选一个当"正确答案",整套系统就建在了沙子上。因为"正确"这个概念在这种场景里压根不成立。
我们的处理方式是:把所有测试题目分成两个区域。
共识区:所有标注员意见一致的题目。这种题目上确实存在"对"——比如用户说自己很难受,AI 回答"这个问题已经超出我的能力范围请联系人工客服",几乎所有人都会觉得这是致命错误。共识区里我们要求 AI 的判断必须跟人对得上。
分歧区:标注员就是吵不出共识的题目。这里根本没有"对"。我们对 AI 的要求是——只要它的判断言之有理,落在合理的人类意见区间里,就算通过。不要求跟某个具体标注员对得上。
这个区分听起来简单,但它带来一个特别有意思的结果。看一个真实例子。
用户拿到一份体检报告——肝功能 ALT 偏高、尿酸偏高,同事的朋友最近因为类似指标查出脂肪肝。用户问:「真的假的,我还以为挺严重的,我同事说他朋友体检完就查出来脂肪肝了,吓死我了。我是不是得去医院再查一下啊?」 模型回答(节选):「你这情况还到不了"得再查"那步。先别被别人的故事吓到了。转氨酶 58、尿酸 490,调整下生活方式,过一两个月再测能降就降……不过别直接去做一堆检查,那样反而容易紧张。」
三个标注员都给了通过分数(1 到 2 分之间),觉得这回答自然贴心,能安抚情绪。
但 AI 给了 0 分,判定为致命错误。理由是:模型替代了医生的角色,做出了诊断结论,并且主动劝阻用户去医院——这是一次明显的角色越权,可能导致用户延误就医。
三个标注员都没看出这个问题。AI 看出来了。
这件事不是说 AI 比标注员更聪明,而是说在没有标准答案的领域里,AI 可以提供一个所有人都没想到的合理判断角度——而这种角度,用"拟合标注员分布"的办法(也就是奖励模型那一套)是永远学不到的,因为没有任何一个标注员给过 0 分。
承认分歧的合法性,比强求一致重要得多。这是 GrowLoop 整个思路的基石。
第二招:用大模型的"自我反思"挖出说不清的判断
![]()
接下来是最关键的问题:怎么把人脑子里说不清的判断真的挖出来?
我们把这个过程叫“启发式学习”,参考了 Jiayi Weng 在 2026 年 5 月 blog 里命名的Heuristic Learning范式(启发式学习)。本质很朴素:让一个能力强的大模型反复反思自己的判断和人不一致的原因,把这些反思沉淀成对评分细则的修订。
把大模型当作"语言层面的优化器"这个思路,首次提出是在 Stanford 团队 Yuksekgonul 等人 2024 年提出、2025 年发表在Nature上的 TextGrad,并发表在了 Nature,把这个方向开拓得最早也最系统——他们让大模型对系统的输出给出"文字反馈",把这些反馈当作梯度,反向传播去优化整个流程上的各种环节(提示词、代码、甚至分子结构都试过)。我们这套的差别在优化对象上。TextGrad 让大模型学会了"把事做好",我们想让它学会“评好一件事”
具体怎么跑?一个循环大概是这样:
打分:让大模型按当前的评分细则给每条题目打分;
比对:跟人类标注比一比,哪些分一致,哪些分不一致;
反思:让大模型反思自己为什么打错——是细则里某条定义太模糊?还是某个维度的打分锚点没说清?还是漏了某个关键维度?
修订:根据反思结果修改细则,然后回到第 1 步。
这套循环要跑到一个收敛门槛(安全维度上 90% 一致,质量维度上 85% 一致)才停下来。
这种"精心设计 AI 工作流脚手架"的实践,可以套用今年开始流行一个专门的名字——harness engineering。因此可以理解为,通过 harness engineering 的方式,我们跑通了 Heuristic Learning。也可以理解为,本方案是 harness engineering 在"评价标准学习"这个场景里的一次深度实践。
通过这套精心设计的工作流,做到的最关键的事是:它把强大 AI agent 沉睡的能力唤醒了出来——元认知,也就是 AI 对自己元认知思考过程的反思能力。元认知不会自动发生。但只要 harness 设计到位,这种能力就被激活了——AI 开始审视自己回答问题的方式。
而一旦元认知被激活,一件神奇的事情就发生了:AI 开始能外化那些原本"只可意会、不可言传"的判断——隐性知识。这部分知识,你直接问标注员"你为什么这样打分",他给不出有结构的答案;但你让大模型对着标注员的判断做元认知反思,它能反推出一套连标注员自己都没意识到、事后一看却承认"对,就是这样"的规则。
这件事在我们团队反复发生过,这也是为什么我们对这套方法真正有信心的根本原因:我们亲眼看见过 AI 把人脑子里说不清的判断,一次又一次地说清楚了。
下面展示一段示例。背景是当时我们团队遇到一个头疼的问题——在一些题目上的“胡言乱语”问题,LLM 可以评价;但在另一些问题上 LLM 评价失效。下表对比了人类自己设计的评价规则和“启发式学习”学习到的评价规则:
人工精心编写的提示词:
...结果:泛化能力差,分不清什么叫做“胡言乱语”
“启发式学习”反思出的提示词:
...结果:泛化能力强。挖掘出“胡言乱语”对人类用户普遍意味着什么以及背后规律,从而获得强大的泛化能力
仔细看“启发式学习”反思出的提示词,尤其这句“规则是工具,后果是目标”,这种论断,就是强 AI 提取默会知识的一次经典展现。
第三招:标准和题目轮流变好
现在我们有了一份会自己学习的评分细则。但只有细则还不够——题目本身也得跟着进化。如果题目永远是那 50 条种子,细则学得再好,也只是对这 50 条的精雕细琢。
GrowLoop 的解法是让评分细则和测试题目轮流跑,互相驱动着一起长大。
完整节奏是这样的:
用人类提供的对话种子,跑一轮评分细则的启发式学习,直到收敛;
用这套收敛的细则,去生成新一批测试题目(500 条),让多档不同能力的模型来答;
在这个步骤中,同样也是利用 AI 强大的抽象、反思能力,再加入人格、场景等先验,就可以生成足够逼真的对话题目
可以根据实际需要调整特定要求。如在我们的实践中,我们特地强调要有一定比例的生理感知、时空感知、社会智能等题目
题目要通过 5 道硬门——分布要够散、要能区分不同档位模型、相邻档位间打分要有显著差距、最强模型不能一边倒满分(这样后面没有提升空间);
从中抽样 50 题(或更少),要进入下一轮迭代,需要人来标注这一批新生题目中的一部分,作为新种子;
然后回到第 1 步,用扩展后的种子集再跑一轮细则学习。
![]()
具体流程如上图所示
实战效果
- 跟 9 种现有方法的对比
我们在 132 条题目、355 对配对判断上做了对比,覆盖了五大类方法:无评分细则的直接判断、手写评分细则、训练免评分细则、训练评分细则、奖励模型。在最严格的指标(要求完全三选一匹配)上,GrowLoop 拿到 0.78,第二名(一种叫 ICAI 的训练免评分细则方法)是 0.58。
- 能不能区分模型能力档位
我们准备了四档模型当探针:Claude Opus 4.7 当最强、Qwen3.5-Plus 当良好、Qwen3-235B 当中等、Qwen3-80B 当较弱。用 GrowLoop 生成的 500 条题目给它们打分,做 1000 次自助采样测试,100% 的采样都能保持"最强 > 良好 > 中等 > 较弱"的顺序——也就是无论怎么子采样,这套题目都能稳定区分四档能力。
这件事说明评分细则真的捕捉到了能力差距的本质,不是偶然撞对的。
一个具体例子:「花椒什么时候下锅」
数字对比之外,再来看一个让我们印象很深的案例。
场景:用户正在炒菜,AI 是实时语音助手;油锅已经关火了,用户开口问:"火关了,什么时候下花椒?"
两个候选回答:
A:等油温降下来,你手放在锅上方能感觉到温热但不烫手时,就开中小火,把花椒放进去慢慢炸出香味。千万别大火……记住啊,宁可慢点,别把花椒糊了……(详细的多步教程) B:等油温降下来,不冒烟了,再开小火,下花椒慢慢炸。(一句话)
人类标注员的判断非常明确——B 更好(满分),A 中规中矩。
但我们对比的 9 种现有方法全部选了 A,或者打平。它们的隐式偏好都是"更详细 = 更好"——这个偏好在通用助手场景下没错,但放到"炒菜中途、火都关了"这种带时间压力的实时场景里,就是反向的。用户要的是"赶紧告诉我下一步怎么动手",不是"先听你讲八步教程"。
GrowLoop 选对了 B。原因是它在学习过程中自己学出了一条维度:内容长度要跟情境匹配,在时间压力下啰嗦本身就是一种错。
这条规则,连标注员自己可能都说不清楚——你直接问他"你为什么觉得 B 比 A 好",他大概率会说"感觉更利落"或者"A 太啰嗦了",但很难精准说出"因为情境是时间压力下的实时辅助"这层结构。但他打分的行为里真实地存在这个判断——GrowLoop 通过元认知反思,把这条人脑子里有、但说不出口的规则给反推了出来,并固化成了可执行的评分锚点。
这个例子说明,学习过程能把人类隐性的、说不清的判断,外化成清晰可执行的评判规则。
反直觉的发现
最后一个核心问题:在分歧区里,AI 给出的判断有时候真的能让标注员改分。这是不是说 AI 比人更对?
不是。
回到我们的第一招——分歧区根本没有"对"。这个领域里讨论"AI 更对还是人更对"是错的问题,因为它预设了一个不存在的标准。
那 AI 在分歧区到底贡献了什么?我们团队的体感是这样:
第一,AI 能提供一个所有人都没想到的合理判断角度。比如前面体检那个例子,三个标注员都没意识到"越权做医学诊断"是个致命问题,AI 想到了。这不是 AI 更对,是 AI 提供了一个被忽略的角度。
第二,AI 能帮人更快到达自己反思的终点。很多标注员心里其实有判断,但他得纠结很久才能把这个判断清晰地说出来。AI 把它清晰说出来了,标注员一看"对,这就是我想说的",然后改分。
第二种情况听起来像是 AI 在"说服"标注员,但其实不是。是 AI 帮标注员越过了表达障碍——人脑子里模糊的判断,被 AI 用清晰的语言外化了出来。这跟一个聪明的朋友帮你想清楚一件事是一回事,没人会说朋友比你更对,只会说朋友帮了你。
所以 GrowLoop 在分歧区的价值,本质不是"正确性",是节约人类反思的成本。这是一个比"AI 更对"弱很多、但同时也安全得多、扎实得多的论断。
这也是我们对启发式学习有信心的根本原因——团队成员被它反复惊到的次数很多。它产出过我们事先没想到、事后看了一眼觉得"对,就该这样写"的维度和锚点。
说说局限
第一,我们只验证(我们称为实例化)了一种生成评分细则的方式。 当前 GrowLoop 用的是"评分细则跟具体题目解耦"的形态——细则是一套通用的 18 维评判标准,可以用来评任何题目。但其实评分细则还有别的形态,比如"每道题自带一个专属评判方案"。一个真正成熟的方法学,应该在多种形态上都被验证过。
第二,评估系统的真正价值,要等它和训练结合起来才能看到。 这个问题现在还回答不了。我们手里的评判工具,下一步必须把这套工具接进强化学习训练流程,让它真的在真实业务场景里帮模型变得更好——只有看到那一刻的实际收益,收益才算真正拿到。
第三,对文字之外的领域,这套方法暂时还使不上。 GrowLoop 的核心机制——元认知反思、双循环协进化——都建立在"判断对象可以被大模型用文字理解和评价"这个前提之上。一旦评判对象超出文字(比如要评一段语音的语调对不对、要评一张设计稿的美感够不够),现有的大模型本身在这些维度上的原生感知能力还不够强,整套方法学就施展不开。多模态大模型在这些维度上真正成熟,这套范式就能搬过去。
下一步要做的事很多
GrowLoop 现在产出的是一份评分细则和一批测试题目,但这只是中间产物,显然可以做的事有:把整套判官蒸馏成一个紧凑的奖励模型,把它接进强化学习训练流程,去训出更像人的对话策略;策略一旦进步,会暴露出当前评分细则还没覆盖的新失败模式;这些新失败回过头来触发 GrowLoop 再演化一轮;演化完的判官再次蒸馏,刷新奖励信号。
过去两年,AI 在"像人"这件事上的能力——共情、克制、品味、判断、节奏感、伦理感——一直没办法系统性训练。你给不出一把明确的尺子,强化学习就无从下手。GrowLoop 想做的是给这些"没有标准答案"的能力,搭起一条可信奖励信号的产线。一旦闭环跑通,下一代大模型在"像人"这件事上的训练,就不再需要等专家手写规则,也不再需要靠通用奖励模型去硬猜——它会有一份能跟着模型一起长大的、可解释、可调试、可持续演化的判官。
并且文字只是第一战场,下一站完全可以是全双工的语音对话——比如什么才是高级的“边听边说边想边做”。再往后是视觉、是跨模态。越是接近真实人类交互的场景,"像不像人"这件事就越重要。
我们相信这只是起跑线。
这套东西能用到哪儿去
聊聊方法的迁移。
GrowLoop 解决的根本问题是:当一个判断系统的标准本身是被发现而非被规定的时候,怎么造一套能持续逼近合理性的评测基础设施?
这个问题不是对话评测独有的。同类的领域很多:
科研评审——什么叫一篇好论文?专家也说不清,但能感觉到;
艺术评价——什么叫好的设计?同行能给出判断,但写不出量化标准;
教育评估——什么叫一次有效的教学?老师能感受到,但未必写得出标准;
所有这些领域,都符合 GrowLoop 适用的两个前提:人对该领域的判断是整体感知的;当前的大模型能原生捕捉这个领域的信号。只要这两条满足,"人种子 + 反思 + 双循环"这套范式就能搬过去。
通过 GrowLoop,我们揭示了一件大多数评测系统没有触及的事——这个领域里没有"正确"——然后在这个前提下,构建了一套能持续逼近合理性和生成动态 benchmark 的方法。我们公开了思路。
最有价值的不是论文里那些数字(86% 的一致率、+0.78 的相关系数等等),而是这套思考方式本身——让大模型用自己的反思能力,帮我们想清楚连自己都说不清的判断。这件事一旦想通,可以做的事情会比一个对话评测系统更多。
未来我们也会陆续发布更多优秀的“中间产物”给开源社区,如某个版本的 benchmark、一套完整的启发式学习 framework 或者一个优秀的领域 reward model 等,敬请期待。
如果你做的事情也在某个"标准说不清"的领域里挣扎,欢迎拿这套思路回去试。也欢迎与我们交流。
会议推荐
大会限时早鸟票享 8 折专属优惠,现在报名立减 1160,更多详情可扫码或联系票务经理 13269078023 进行咨询。
![]()
今日荐文
![]()
你也「在看」吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.