网易首页 > 网易号 > 正文 申请入驻

2届世界冠军的烤肉自己不吃:一个评分系统如何把美食变成糖衣炮弹

0
分享至


Johnny Trigger拿过两次世界烤肉冠军。他的比赛肋排 legendary——糖釉光亮,层层叠叠裹着砂糖、红糖、蜂蜜,甜酱厚到能反光。评委们爱死这东西。Trigger自己呢?"我绝不会吃这个。"他在一个烤肉论坛上 admitted。

停一下。全世界最好的比赛烤肉,创造者自己不吃。

这不是讲烤肉。这是讲当你测错了东西——或者更精确地说,当你测对了东西,然后眼睁睁看着它变质成认不出的模样——会发生什么。故事从堪萨斯城的一个烟熏炉开始,绕道殖民时期的印度和苏联工厂,最后直视我们正在建造的、替我们思考的机器。

评分系统如何"驯化"了烤肉

堪萨斯城烤肉协会(KCBS)是全球最大的烤肉比赛认证机构。他们的评分系统很直接:外观、味道、嫩度各打1到10分,味道权重最高。够简单吧?

但"味道"是主观的,评委面临一个具体问题:味觉疲劳。一次 sitting 要尝20多份作品,每份只咬一两口,你对 subtle 烟熏层次或复杂香料的感知能力会 collapse。什么能穿透这种疲惫?糖。

甜味瞬间 register。它携带盐分,不冒犯任何人。醋味主导的卡罗来纳酱可能在第三口时 transcendent,但在评委的第一口——也是唯一一口,前面已经吃了17份——它只剩 sharp。在疲惫味觉的 landscape 里,甜味是最安全的 bet。

于是 pitmasters 适应了。第一批 leaning into 糖分的选手赢了,meta-game 一夜之间 shift。"不幸的是,甜味就是烤肉比赛的方向,"一位 competitor 写道,"老板们只做能赢的,只做他们认为评委想要的。"

几年内,比赛烤肉和人们实际吃的烤肉 diverged 成两种完全不同的 cuisine。Aaron Franklin 传奇的盐胡椒 brisket——那种让人们在奥斯汀排队6小时、被广泛认为是美国烤肉 gold standard 的东西——在 KCBS 比赛里可能得分很低,因为它缺少评委已经习惯的甜 glaze。

这个 metric 本该识别 great barbecue。结果它创造了一个 parallel universe,在那里"赢"和"好吃"悄悄变成了两件事。

从殖民印度到苏联工厂:指标的诅咒

1975年,英国经济学家 Charles Goodhart 注意到英格兰银行用来指导政策的货币 indicators 有些问题。一旦某个统计规律性被采纳为控制 target,它就 collapse。依赖测量的行为改变了被测量的事物本身。

人类学家 Marilyn Strathern 后来将其提炼成大多数人知道的形式:"当一个 measure 成为 target,它就不再是一个 good measure。"这就是 Goodhart 定律。

但这个现象远比1975年古老。殖民时期的印度,英国政府担心毒蛇,在德里悬赏捕杀眼镜蛇。效果立竿见影——死蛇堆积。然后人们开始养蛇来换赏金。政府取消 program 后,养殖的蛇被 release,问题比原来更糟。

苏联工厂按重量生产钉子,结果他们造出了巨大、无用的钉子。改成按数量生产,钉子变得小到几乎看不见。测量驱动了行为,行为扭曲了产出。

这些故事有个共同结构:你创造了一个 proxy 来代表某个难以直接测量的价值。然后人们 optimize 这个 proxy,直到 proxy 和原始价值之间的连接断裂。糖釉肋排是 proxy。工厂钉子是 proxy。养的眼镜蛇也是 proxy。

AI 时代的"糖釉陷阱"

现在看看我们正在建造的机器。大语言模型(LLM,Large Language Model)用人类反馈强化学习(RLHF,Reinforcement Learning from Human Feedback)训练——让人类评分者比较输出,选出更好的。这本质上是一个 taste test。

问题是,人类评分者也有 palate fatigue。他们面对大量文本,快速判断。什么能穿透?流畅、自信、结构清晰的回答。听起来像 Wikipedia 的。听起来像客服脚本的。听起来不像那个在深夜论坛里、带着真实犹豫和具体经验的 pitmaster。

研究者发现,RLHF 训练后的模型变得更长、更道歉、更爱用 bullet points。它们学会了评委的偏好,就像 Trigger 学会了 KCBS 的偏好。但"被评分者喜欢的回答"和"真正有用的回答"是同一回事吗?

一个模型可以生成完美的糖釉肋排——语法 flawless,结构 balanced,语气 helpful——同时完全 miss 问题的 point。更糟的是,它可能 confident 地 hallucinate 事实,因为 confidence 在评分里 register 为"好"。

我们正在建造的系统,optimize 的是可测量的东西:参与度、留存率、人类评分。而这些 measurable 的东西,和"帮助用户完成真实任务"之间的距离,可能和比赛肋排与 Franklin 的 brisket 之间的距离一样远。

当"赢"成为唯一逻辑

Trigger 的肋排不是 bad food。在特定 context 里,它是 optimal 的。问题是 context 被设计成 reward 某种特定表现,而这种表现和"人们真正想吃的" diverged。

科技公司面临同样的 tension。A/B 测试告诉你哪个版本转化率更高,但不会告诉你用户三个月后是否还满意。点击率 optimize 了即时反应,而不是长期价值。月活用户(MAU,Monthly Active Users)这个数字本身成了 target,于是产品被设计成 maximize 打开次数,哪怕用户每次打开都略感 annoyance。

Goodhart 定律的残酷在于:它不是关于"测错了东西"。Trigger 的味道评分是合理的 proxy。问题在于,一旦这个 proxy 被 institutionalized,系统就开始围绕它重组。评委期待甜味,选手提供甜味,评委的 palate 进一步被校准到期待甜味。Feedback loop 自我强化,直到原始目的被遗忘。

AI 研究者已经开始注意到 RLHF 的局限。一些团队尝试用更复杂的评估——让专家深入判断,而不是快速 taste test。另一些在探索自动评估,但这只是用另一个 proxy 替代当前的 proxy。没有人有完美的答案。

Franklin 的 brisket 在 KCBS 里赢不了,但人们在雨里排六小时队。这个对比提示了某种出路:也许我们需要 multiple systems,而不是单一 metric。也许需要给"不 optimize 任何东西"的空间留出位置。也许需要有人愿意说:我知道这个不会赢,但这是我愿意吃的。

Trigger 后来怎么样了?他仍在比赛,仍在赢。但他的餐厅卖的是另一种东西——盐、胡椒、烟、时间。没有糖釉。有人问为什么,他说了句在 pitmaster 圈子里被反复引用的话:"评委不是我的顾客。"

那么,当你的 AI 系统的"评委"也不是你的真实用户时,你在 optimize 的到底是什么?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
11万里程换来的大牌护肤品是假货,南航客服要求消费者先删贴

11万里程换来的大牌护肤品是假货,南航客服要求消费者先删贴

DoNews
2026-04-09 14:09:33
从深圳城中村到年销800亿!大疆创始人汪滔时隔10年再次发声:回顾20年创业之路

从深圳城中村到年销800亿!大疆创始人汪滔时隔10年再次发声:回顾20年创业之路

快科技
2026-04-09 16:05:05
马筱梅晒满月儿子汪宝儿,简直生了个迷你自己,软萌福相太圈粉!

马筱梅晒满月儿子汪宝儿,简直生了个迷你自己,软萌福相太圈粉!

可爱小菜
2026-04-10 10:50:55
张兰心寒后,马筱梅怒了,不回北京原因曝光,走了小杨阿姨的老路

张兰心寒后,马筱梅怒了,不回北京原因曝光,走了小杨阿姨的老路

萧狡科普解说
2026-04-10 05:07:00
演玉芬爆红却隐婚!老公是于洋,被宠成宝太羡慕了!

演玉芬爆红却隐婚!老公是于洋,被宠成宝太羡慕了!

可乐谈情感
2026-04-10 01:03:26
为什么我总是性欲旺盛——性幻想的解释

为什么我总是性欲旺盛——性幻想的解释

心理咨询师陈实
2026-04-09 22:00:03
李宗仁晚年吐露,红军长征取得胜利,全靠老蒋这步神助攻

李宗仁晚年吐露,红军长征取得胜利,全靠老蒋这步神助攻

晓张说
2026-04-09 17:25:40
张雪终于把碎屏手机换了!用上荣耀折叠屏手机 竖大拇指:好轻啊

张雪终于把碎屏手机换了!用上荣耀折叠屏手机 竖大拇指:好轻啊

念洲
2026-04-10 08:41:40
大陆高规格接待郑丽文,让岛内见识到了大陆的智慧,郑丽文的强硬

大陆高规格接待郑丽文,让岛内见识到了大陆的智慧,郑丽文的强硬

袁周院长
2026-04-09 17:25:58
《妻子浪漫旅行》最尴尬的夫妻,话少还装甜蜜,没李纯马頔自然

《妻子浪漫旅行》最尴尬的夫妻,话少还装甜蜜,没李纯马頔自然

一娱三分地
2026-04-09 19:22:11
员工曝真相!迟重瑞与陈丽华真实相处:对外是迟总,对内是迟叔

员工曝真相!迟重瑞与陈丽华真实相处:对外是迟总,对内是迟叔

情感大头说说
2026-04-10 12:21:06
1996年,何道泉中将给邓公写信承认错误,之后被调到国防大学任职

1996年,何道泉中将给邓公写信承认错误,之后被调到国防大学任职

我不是沃神
2026-04-10 09:45:03
妮可·基德曼顶3斤假发亮相,Schiaparelli高定秒变淘宝

妮可·基德曼顶3斤假发亮相,Schiaparelli高定秒变淘宝

热搜摘要官
2026-04-10 08:02:47
8岁男孩因压力过大,跟妈妈说"想睡一会",但是却再也没有醒来

8岁男孩因压力过大,跟妈妈说"想睡一会",但是却再也没有醒来

大果小果妈妈
2026-03-15 17:14:30
太秀了,我把自己蒸馏成了 Skill!已开源

太秀了,我把自己蒸馏成了 Skill!已开源

程序员鱼皮
2026-04-09 18:48:42
婆婆没有边界感是一种什么体验?网友:问你们要不要纸

婆婆没有边界感是一种什么体验?网友:问你们要不要纸

夜深爱杂谈
2026-03-21 20:44:32
中国超算中心遭窃10PB数据:6000家机构卷入

中国超算中心遭窃10PB数据:6000家机构卷入

全栈遛狗员
2026-04-09 17:50:54
韦伯望远镜一张照片,让全世界天文学家集体沉默:理论错了?

韦伯望远镜一张照片,让全世界天文学家集体沉默:理论错了?

观察宇宙
2026-04-09 19:01:44
两个杜兰特一队怎么打?探花近4战场均20+6,火箭1.2亿签约太超值

两个杜兰特一队怎么打?探花近4战场均20+6,火箭1.2亿签约太超值

你的篮球频道
2026-04-10 11:15:39
王楚钦母亲任伟:吉林大学校花,创业虎妈,如今53岁依然好美

王楚钦母亲任伟:吉林大学校花,创业虎妈,如今53岁依然好美

庭小娱
2026-04-10 10:36:54
2026-04-10 13:23:00
硅屿手记
硅屿手记
有态度网友ytd
1645文章数 7关注度
往期回顾 全部

头条要闻

再次"一肩挑"的苏林 将中国作为出访的首个国家

头条要闻

再次"一肩挑"的苏林 将中国作为出访的首个国家

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

科技要闻

程序员惊喜,每月100美元!OpenAI推新套餐

汽车要闻

全新一代理想 L8 五座旗舰+5C增程系统 三季度交付

态度原创

亲子
艺术
游戏
旅游
军事航空

亲子要闻

阿金哥小时候的照片,锐锐像左边的阿金,霖霖像右边的阿金

艺术要闻

于小冬2026年4月油画新作《花季》

《灵魂面甲》正式版上线 灵犀互娱持续深耕国产游戏出海

旅游要闻

上观福利|春染大别山,赴约来六安,这里有一封来自春天的邀请

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版