网易首页 > 网易号 > 正文 申请入驻

克劳修斯1865年的公式,被OpenAI用来测模型"心虚"程度

0
分享至

一个AI生成测试用例时,你凭什么相信它没瞎编?1865年热力学里的老概念,现在成了检测大模型"底气足不足"的体检报告。

从蒸汽机到ChatGPT:一个公式的跨界150年

德国物理学家克劳修斯在1865年提出"熵"(Entropy,熵)时,想的是蒸汽机效率。150年后,香农把它搬进信息论,用来算"一件事有多不确定"。

这个跨界够远,但逻辑意外通顺。蒸汽机里的热损耗,和大模型生成文本时的"随机瞎猜",本质上都是混乱度的度量。测试自动化领域现在拿它当标尺:熵越高,模型越"心虚"——它对答案没把握,输出像掷骰子。

Claude E. Shannon的改编公式长这样:H(X) = -Σ p(x) log p(x)。别被吓到,翻译成人话就是:把所有可能结果的概率丢进对数里加权求和,负号一调,混乱度就出来了

测试工程师的实际用法更直白。跑视觉回归测试时,模型对某张截图的标注置信度分布如果是[0.9, 0.05, 0.05],熵低,靠谱;如果是[0.4, 0.35, 0.25],熵高,建议人工复核——这模型自己都没想明白。

交叉熵:当模型预测撞上真实答案

单独算熵不够。你还得知道模型"猜"的和实际"对"的差多远,这叫交叉熵(Cross-Entropy,交叉熵)。公式是H(p,q) = -Σ p(x) log q(x),p是真实分布,q是模型嘴硬说的分布。

Intent Engineering(意图工程)里这招杀器。设计测试场景时,你用自然语言描述用户意图,模型生成对应操作步骤。交叉熵低,说明模型get到了你的点;交叉熵飙高,它要么理解偏了,要么在胡编乱造测试步骤。

有个真实场景:某团队用LLM生成电商下单流程的自动化脚本。输入"用户用优惠券买限时折扣商品",模型A的交叉熵0.8,脚本能跑通;模型B飙到2.3,生成的脚本把"优惠券"和"折扣"当成互斥条件,直接报错。数值会说话,省了三小时debug。

困惑度:模型自己的"不确定"指数

Perplexity(困惑度)是交叉熵的指数形式,e的H(p,q)次方。这个数更直观:可以粗暴理解为"模型每走一步,面前有多少个等概率选择"。

困惑度100,相当于每次猜词面前摆着100个看起来都对的选项。测试自动化里,这直接映射到维护成本——困惑度高的模型生成的定位器(locator),过两周页面一变就失效,因为当初它选这个selector时就没什么底气,纯属蒙的。

Google 2023年发的一篇内部论文(未公开但测试圈流传)提到,他们把困惑度阈值设在15以下才准入生产环境。超过这个数,生成的测试用例强制打标"需人工review"。

信息增益:测什么该优先自动化

信息增益(Information Gain,信息增益)是决策树的老朋友,现在被拿来给测试优先级排序。核心问题:测这个场景,能消除多少不确定性?

计算公式是父节点熵减子节点加权熵。落地到测试策略:你有100个功能点,信息增益高的先自动化——测完它,你对系统整体质量的"心里没底"程度下降最多。

某金融App团队去年用这招重构回归套件。原本按业务线平铺,跑得慢还漏bug。改按信息增益排序后,核心支付链路的信息增益0.87,优先覆盖;某个冷门报表功能0.12,降级为抽样测试。结果同样机器时间,核心缺陷发现率提了34%。

这些公式写在论文里像天书,拆开了全是测试工程师的日常决策。熵看置信度,交叉熵看偏差,困惑度看维护债,信息增益看ROI——四个数,把"这AI靠不靠谱"从玄学变成算术。

你的团队现在测大模型输出,是凭感觉拍脑袋,还是已经有人偷偷在算这些数了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
靶向药杀光癌细胞,也溶掉了全身肌肉,父亲只剩骨架没能等到天亮

靶向药杀光癌细胞,也溶掉了全身肌肉,父亲只剩骨架没能等到天亮

健身狂人
2026-04-21 17:08:17
炸了!克洛普给皇马下死命令:花 3 亿签 5 人,点名替换库尔图瓦

炸了!克洛普给皇马下死命令:花 3 亿签 5 人,点名替换库尔图瓦

奶盖熊本熊
2026-04-21 04:52:43
自食其果!高市刚得罪四个邻国,7.7级强震突袭,核电站谁来救?

自食其果!高市刚得罪四个邻国,7.7级强震突袭,核电站谁来救?

朗威谈星座
2026-04-21 12:22:51
美国劳工部长被解职

美国劳工部长被解职

第一财经资讯
2026-04-21 08:17:07
不比不知道,一比吓一跳!苏林回国后很焦虑:原来我们落后这么多

不比不知道,一比吓一跳!苏林回国后很焦虑:原来我们落后这么多

说历史的老牢
2026-04-21 13:22:14
不到24小时,美国迎来3个噩耗,特朗普或将下台,伊最高领袖下场

不到24小时,美国迎来3个噩耗,特朗普或将下台,伊最高领袖下场

知法而形
2026-04-20 12:08:23
你喝的白酒只有七百年历史,三千年酒文化跟它半毛钱关系都没有

你喝的白酒只有七百年历史,三千年酒文化跟它半毛钱关系都没有

富贵说
2026-03-31 23:21:39
1次退圈+1个萌娃!宋承炫当爸,粉丝哭成一片

1次退圈+1个萌娃!宋承炫当爸,粉丝哭成一片

陈意小可爱
2026-04-21 17:32:40
浙江一男子称花1.02元参加“魔鬼辣”挑战,吃完半小时痉挛倒地送医,商家朋友:他是个惯犯,涉嫌敲诈;市监所:商家食材索证索票完整

浙江一男子称花1.02元参加“魔鬼辣”挑战,吃完半小时痉挛倒地送医,商家朋友:他是个惯犯,涉嫌敲诈;市监所:商家食材索证索票完整

中国能源网
2026-04-21 18:19:07
周亮,被免职

周亮,被免职

新京报政事儿
2026-04-21 10:28:07
钱留下,人别来!西班牙主席对中国甩出一句话,全网炸锅了

钱留下,人别来!西班牙主席对中国甩出一句话,全网炸锅了

菁菁子衿
2026-04-21 10:11:50
马克龙:霍尔木兹海峡再被封,美伊双方都有责任

马克龙:霍尔木兹海峡再被封,美伊双方都有责任

看看新闻Knews
2026-04-21 10:52:33
西班牙提案、意大利变脸、百万民众联署:欧洲对以色列态度加速转向

西班牙提案、意大利变脸、百万民众联署:欧洲对以色列态度加速转向

澎湃新闻
2026-04-21 07:22:26
上海航空员的工资曝光,多少人羡慕嫉妒恨…

上海航空员的工资曝光,多少人羡慕嫉妒恨…

慧翔百科
2026-04-21 16:59:35
尹子维的母亲曾是邵氏的顶级花旦,惊为天人的美貌,美得让人窒息

尹子维的母亲曾是邵氏的顶级花旦,惊为天人的美貌,美得让人窒息

上官晚安
2026-04-21 08:56:51
林志玲《男人装》杀疯了 又野又勾人 这双腿真的过分的好看了

林志玲《男人装》杀疯了 又野又勾人 这双腿真的过分的好看了

老吴教育课堂
2026-04-21 20:05:47
恒大超级蛀虫刘永灼:甚至比许家印还能揽财,狂烧千亿终落法网

恒大超级蛀虫刘永灼:甚至比许家印还能揽财,狂烧千亿终落法网

小曙说娱
2026-04-19 00:27:45
若丢掉冠军,将缔造英超史上最大崩盘,阿尔特塔或将永远无法翻身

若丢掉冠军,将缔造英超史上最大崩盘,阿尔特塔或将永远无法翻身

夜白侃球
2026-04-21 14:14:18
关注丨美伊谈判,新变数!

关注丨美伊谈判,新变数!

钱眼
2026-04-21 20:46:26
1979年华国锋访欧归来,叶剑英评其性格不适合复杂改革

1979年华国锋访欧归来,叶剑英评其性格不适合复杂改革

王鶔吃吃喝喝
2026-04-21 12:00:08
2026-04-21 21:12:49
野生运营
野生运营
懂点产品,懂点AI,正在努力给平淡日子搞点新花样。
1629文章数 27关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

六层楼高大树"偷"走家里光线 女子起诉隔壁小区业委会

头条要闻

六层楼高大树"偷"走家里光线 女子起诉隔壁小区业委会

体育要闻

62岁,成为中国足坛最火的人

娱乐要闻

周润发时隔16年再卖楼,变现数亿资产

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

艺术
手机
数码
时尚
军事航空

艺术要闻

任伯年写竹,真带劲

手机要闻

OPPO Find X9 Ultra把增距镜塞进手机里:史无前例

数码要闻

60瓶椰子水随便装!26款乐道L90同级独有30L后备箱冰柜

时尚启蒙必看片单,终于更新了

军事要闻

特朗普公开对伊开战真正原因

无障碍浏览 进入关怀版