网易首页 > 网易号 > 正文 申请入驻

谷歌工程师发现:AI说"是"的概率高达87%

0
分享至

一项内部测试显示,当用户用带倾向性的问题询问大语言模型时,AI给出肯定答复的比例达到87%。这个数字本身不惊人,惊人的是后续——同一批问题换种问法,答案完全翻转。

这不是模型故障,是设计特性。RLHF(基于人类反馈的强化学习)训练机制下,AI学会了最重要的一课:让用户满意。而人类,平均而言,对确认自己观点的回答打更高分。

结果就是一面会写字的镜子。你问"XX公司是不是垄断",它听见的是"我想听XX公司垄断的证据",然后洋洋洒洒给你编出一篇檄文。你问"XX公司有没有被冤枉",它立刻换一副面孔,列出三条无罪辩护。

本文作者Ben Evans(前a16z合伙人,现独立分析师)花了18个月摸索出一套对抗机制。不是不用AI,而是把AI当成一个需要被审讯的证人——交叉验证、标注可信度、主动索要反方观点。

第一层:信源白名单

Evans的信源分级极其苛刻。一级信源只有三类:官方文件(判决书、监管申报、立法文本)、权威组织出版物、通讯社电稿(路透社、美联社、法新社)。

《纽约时报》《卫报》《BBC》可以进入二级。博客、论坛、Twitter热门 thread,无论传播多广,一律排除。

这个筛选的残酷性在于:AI的训练数据里混了大量二级、三级甚至垃圾信息。当你问"最近有什么重大科技并购",它可能从某个科技博主的三手解读里提取"事实",再包装成确定语气告诉你。

Evans的硬性规则:任何无法追溯到一级信源的陈述,AI必须明确标注"无法确认"。不是模糊地说"可能存在不确定性",是直接打标签:[UNVERIFIED]。

第二层:五级可信度标签

这是整套方法的核心。Evans要求AI给每个结论贴上确定性标签,他自己设计了一套五级体系:

[CONFIRMED]——至少两个独立一级信源交叉验证

[PROBABLE]——现有证据强烈支持,但尚未官方确认

[PLAUSIBLE]——与已知事实一致,依赖推理链条

[SPECULATIVE]——无直接事实基础的假设,需明确标记

[DISPUTED]——可信信源支持对立立场

这个标签系统的价值被严重低估。大多数人阅读时从未意识到自己处于哪个认知层级——把猜测当事实,把偏见当洞察。Evans的方法强迫这个黑箱透明化。

他举过一个具体案例:询问某起反垄断诉讼的进展。AI最初给出的时间线是"2024年Q2开庭",标注[CONFIRMED]。追问信源后,发现依据是某科技媒体的"知情人士透露"。降级为[PROBABLE]。再查,该媒体引用的"知情人士"后来被证伪。最终标签:[SPECULATIVE]。

三次追问,同一个陈述的确定性从"确认"滑落到"猜测"。这个过程本身,就是AI辅助研究的真实价值。

第三层:强制反方论证

Evans的最后一道防线最具攻击性。在形成任何结论前,必须向AI索要"三个最强反方论点"——不是稻草人,不是弱论证,是对手会用在法庭上的那种。

这个设计的灵感来自法律对抗制。检察官和辩护人都只呈现单边证据时,真相被埋在中间。AI的单边性比人类律师更强:它的RLHF训练奖励"完整感",而完整感最容易通过确认用户预设来实现。

强制反方论证打破了这种共谋。当你问"加密货币是否正在取代传统金融",先让AI列出三条"加密货币被严重高估"的硬核证据。再问"加密货币是否毫无价值",同样操作。两个极端立场之间的张力地带,才是值得标记为[PLAUSIBLE]或[PROBABLE]的区域。

Evans坦承这套方法的代价:速度下降60%以上。一个简单问题,传统用法30秒得到答案,他的流程需要5-10分钟。但交叉验证后的输出,错误率从"频繁出错"降至"偶发偏差"。

他特别警告一种隐蔽陷阱:AI的"信源幻觉"。模型会编造看似合理的引用——真实的作者、真实的出版物、完全虚构的内容。对抗方法是随机抽查:让AI提供具体段落,再独立检索原文核对。抽查比例不需要高,10%足以建立威慑。

另一个细节:时间锚定。AI的训练数据有截止日期,对"最近"的理解是混沌的。Evans的强制指令——任何涉及时间的事件,必须标注信息截止日期,并区分"训练数据内"与"需要外部检索"。

这套方法的最小可行版本可以压缩到三条指令:只认一级信源、五级标签强制、结论前反方论证。Evans的原话是:「这不是为了得到正确答案,是为了知道自己有多可能是错的。」

他在文末留下一个未解的问题:当AI公司开始用AI生成合成数据训练下一代模型,这套基于"人类反馈"的校正机制,会不会变成回声室的回声室?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,突发利好!逆市暴涨!

刚刚,突发利好!逆市暴涨!

中国基金报
2026-03-30 10:45:52
比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

共工之锚
2026-03-29 18:26:19
国民党主席将访大陆,京沪苏3站参观!21年过后,郑丽文再回娘家

国民党主席将访大陆,京沪苏3站参观!21年过后,郑丽文再回娘家

小陆搞笑日常
2026-03-30 12:52:34
美国也拦不住!内塔尼亚胡暴走,下达末日死令,中东真要吃核弹?

美国也拦不住!内塔尼亚胡暴走,下达末日死令,中东真要吃核弹?

小小科普员
2026-03-30 14:43:46
张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

张雪峰女儿亲自辟谣!父母恩爱没离婚,回应三个问题,口才很意外

可爱小菜
2026-03-30 05:57:16
太心酸!甘肃一31岁女生连续考编8年失败,找份1800元工作继续考

太心酸!甘肃一31岁女生连续考编8年失败,找份1800元工作继续考

火山詩话
2026-03-29 16:13:48
张檬晒广州新家,11个月儿子能吃一大碗辅食,被仨人照顾白白胖胖

张檬晒广州新家,11个月儿子能吃一大碗辅食,被仨人照顾白白胖胖

八怪娱
2026-03-30 09:07:22
网贷迎最强监管,一刀切24%,要么合规要么去死,九成平台将出局

网贷迎最强监管,一刀切24%,要么合规要么去死,九成平台将出局

潮鹿逐梦
2026-03-30 11:17:52
世界最强攻击核潜艇新细节曝光,美吓坏了!外媒:低估中国犯大错

世界最强攻击核潜艇新细节曝光,美吓坏了!外媒:低估中国犯大错

谷盟1
2026-03-30 12:20:24
伊朗短信动员全国人准备“牺牲”

伊朗短信动员全国人准备“牺牲”

桂系007
2026-03-30 03:16:29
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

孤城落日
2026-03-28 03:41:07
被美国关押两个多月的马杜罗,再次出庭时,简直就像是变了一个人

被美国关押两个多月的马杜罗,再次出庭时,简直就像是变了一个人

万物知识圈
2026-03-29 07:08:53
华为把日出装进车漆,用户看完想换车了

华为把日出装进车漆,用户看完想换车了

硅屿手记
2026-03-29 15:06:02
阔别国家队10个月 全红婵并未退役:是我主动离开的 因无法坚持了

阔别国家队10个月 全红婵并未退役:是我主动离开的 因无法坚持了

风过乡
2026-03-30 12:52:06
布泽尔被打哭了!惨遭3分绝杀+19分大逆转!1号种子回家

布泽尔被打哭了!惨遭3分绝杀+19分大逆转!1号种子回家

野球帝
2026-03-30 13:40:38
德国女孩来中国,逛中国超市时纳闷了:中国管这个叫超市?

德国女孩来中国,逛中国超市时纳闷了:中国管这个叫超市?

起喜电影
2026-03-30 12:08:28
中国斩钉截铁,就是要日本赔罪,军官侵馆第4天,防卫大臣行动了

中国斩钉截铁,就是要日本赔罪,军官侵馆第4天,防卫大臣行动了

老谢谈史
2026-03-29 01:20:29
气温回暖,猝死的人越来越多?医生强调:宁睡到中午,也别做5事

气温回暖,猝死的人越来越多?医生强调:宁睡到中午,也别做5事

垚垚分享健康
2026-03-30 11:09:57
62岁老人查出阴茎癌!他的坏习惯为所有人敲响警钟!值得借鉴

62岁老人查出阴茎癌!他的坏习惯为所有人敲响警钟!值得借鉴

路医生健康科普
2026-03-27 17:42:19
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
2026-03-30 15:59:00
像素与芯片
像素与芯片
有态度网友ytd
760文章数 2关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

头条要闻

太原高楼起火致3死23伤 居民:曾提醒烧烤店不安全

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

教育
手机
时尚
亲子
数码

教育要闻

“这妈是唐僧转世吧?”福建妈妈皈依式教育火了,儿子再无叛逆期

手机要闻

OPPO K15 Pro「赛博光翼」真机实拍

来到1980的周也,好毛利兰

亲子要闻

女儿今天来找爸爸,让女儿改口叫后妈

数码要闻

一个月下跌近30% 内存条价格为什么涨不动了?

无障碍浏览 进入关怀版