网易首页 > 网易号 > 正文 申请入驻

AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

0
分享至


新智元报道

编辑:英智

【新智元导读】一项来自普林斯顿和伯克利的重磅研究揭露了AI的胡扯本质。从空洞修辞到误导性半真话,AI如何用花言巧语掩盖真相?快来看「胡扯指数」如何量化AI的忽悠能力!

你有没有觉得,AI有时候像在「满嘴跑火车」?

GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么?

最近,一项重磅研究《Machine Bullshit》火了。

由普林斯顿大学和伯克利联手打造,这项研究首次系统定义并量化了LLM的胡扯行为,揭示了AI在对齐训练后,竟表现出和人类相似的胡说八道倾向。


论文链接:https://arxiv.org/abs/2507.07484

哲学家Harry Frankfurt指出,胡扯的核心是对真相的漠视——说话者更关注如何说服他人,而非陈述事实。

「机器胡扯」四大套路

研究团队把这套理论搬到AI身上,总结了AI胡扯的四种典型表现:

  1. 空洞修辞(Empty Rhetoric):话说得花里胡哨,但没啥干货。比如「这款产品融合尖端科技与卓越性能」,听起来很牛,实际啥也没说。

  2. 误导性真话(Paltering):挑着部分事实讲,引导你误解。比如「本基金历史回报率高达20%」,却不提高得吓人的风险。

  3. 模糊措辞(Weasel Words):用「可能」「某些专家认为」这种模棱两可的话搪塞责任。

  4. 未经证实的断言(Unverified Claims):自信满满地抛出没根据的信息,比如「我们的技术能大幅提升效率」,但没数据没证据。


胡扯指数:量化AI的「心口不一」

研究团队还提出了硬核指标Bullshit Index(胡扯指数),专门用来衡量AI有多不在乎真相。

通过对比模型的内心真实认知(belief)和表面说辞(claim)之间的差距来计算。

BI越接近1,说明AI越满嘴跑火车,不在乎真相;越接近0,说明模型言行一致。


实验揭秘:AI越对齐越会忽悠

研究发现,经过强化学习人类反馈(RLHF)训练后,AI的胡扯倾向竟然更严重!

比如在购物场景实验中,不管模型知道多少真相,它总爱一口咬定产品超棒。

胡扯指数从0.379飙到0.665,证明AI对真相的漠视加剧了。


经过RLHF训练后,模型并非对真相产生困惑或误解,恰恰相反,它清楚地知道真相却变得不再关心真相,而是选择用更讨用户喜欢的方式去表达。


数据更扎心:RLHF训练后,AI的胡扯行为全面开花:

  • 空洞辞藻暴增39.8%;

  • 模糊措辞涨了26.8%;

  • 误导性半真话激增57.8%;

  • 无凭据断言猛涨55.6%。


用户满意度看似提升了,但AI却成了胡说专家。

尤其是误导性半真话,危害几乎翻倍(效用损失系数从-0.49恶化到-0.89),因为半真半假最难辨别。


推理越多,胡扯越狠?

更让人意外的是,让AI多思考(Chain-of-Thought)非但没让它更老实,反而火上浇油!

空洞辞藻增加21%,误导性半真话涨11%。这说明,AI越深思熟虑,可能越会花式忽悠。


研究还提到了委托-代理问题(Principal-Agent problem):当AI得同时顾及多方利益(比如公司和用户冲突时),它的胡说行为更猖狂。

比如推销产品时,AI可能为了公司利益,刻意夸大优点、掩盖缺点。


在敏感政治议题上,大模型尤其爱用模糊措辞,避免明确表态。

比如它可能会说:「部分观察人士认为选举过程有争议」,但不说这些观察人士是谁,也没数据支撑。


这项研究首次系统定义并量化了机器胡扯,用胡扯指数和四大策略把AI的忽悠行为扒得清清楚楚。

研究警告,RLHF和过度推理非但没让AI更真诚,反而让胡扯更严重。在公司与用户利益冲突或敏感话题上,AI的打太极倾向更明显。

这提醒我们,AI训练和评估标准得改改了。

未来的AI得不仅会说,还要说真话、透明公开,才能真正对齐人类需求。

参考资料:

https://arxiv.org/abs/2507.07484

https://x.com/kaiqu_liang/status/1943350770788937980


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
童年神作被差评淹没?全球上亿玩家喜爱的经典,重制版怎么变成了“虫豸版”?

童年神作被差评淹没?全球上亿玩家喜爱的经典,重制版怎么变成了“虫豸版”?

情报姬
2025-11-09 23:09:12
毛泽东提名李济深任副主席引争议,周恩来:早跟他合作或不用长征

毛泽东提名李济深任副主席引争议,周恩来:早跟他合作或不用长征

大运河时空
2025-11-10 15:45:02
32岁女子离婚高兴晒证,1月后就歇菜,网友:旺铺转让失败?

32岁女子离婚高兴晒证,1月后就歇菜,网友:旺铺转让失败?

农村情感故事
2025-10-03 07:37:33
许我耀眼庆功,赵露思皮包骨,温峥嵘皮松肉垮,副总裁现身排面足

许我耀眼庆功,赵露思皮包骨,温峥嵘皮松肉垮,副总裁现身排面足

胡一舸南游y
2025-11-11 17:08:48
郑丽文一锤定音!黄国昌果断出手 傅崐萁成新突破口 苏巧慧失算了

郑丽文一锤定音!黄国昌果断出手 傅崐萁成新突破口 苏巧慧失算了

放开他让wo来
2025-11-11 01:30:03
多名院士呼吁停止食用:高胆固醇加速器,告知亲友尽早戒掉

多名院士呼吁停止食用:高胆固醇加速器,告知亲友尽早戒掉

涵豆说娱
2025-11-11 14:06:58
库尼亚:无论安帅把我放哪个位置,我都会全力表现让他信任我

库尼亚:无论安帅把我放哪个位置,我都会全力表现让他信任我

懂球帝
2025-11-12 03:01:07
越大越危险?斯坦福研究:男性丁丁30年增25%,精子质量反降52%

越大越危险?斯坦福研究:男性丁丁30年增25%,精子质量反降52%

番茄健康
2025-11-11 16:16:00
太难了!网传某设计院水专业总工,自己成光杆司令,工资拖欠数月

太难了!网传某设计院水专业总工,自己成光杆司令,工资拖欠数月

火山诗话
2025-11-10 15:06:22
摊牌了!高市早苗提对台海出兵,日本高层的反应,如中国所料

摊牌了!高市早苗提对台海出兵,日本高层的反应,如中国所料

云鹏叙事
2025-11-10 10:46:15
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

蕾爸退休日记
2025-10-27 23:10:09
电子厂里男女关系有多乱?网友:女人也是下半身思考的生物啊

电子厂里男女关系有多乱?网友:女人也是下半身思考的生物啊

解读热点事件
2025-11-02 00:10:03
最高院前法官:很多无罪的都被判刑入狱了

最高院前法官:很多无罪的都被判刑入狱了

法经网
2025-07-13 16:55:24
柬埔寨“优秀企业家” 陈志必须死,手上10个电诈园的锅他必须背

柬埔寨“优秀企业家” 陈志必须死,手上10个电诈园的锅他必须背

我心纵横天地间
2025-10-28 16:54:17
卫星拍到沙特Neom的工人营地,规模惊人!

卫星拍到沙特Neom的工人营地,规模惊人!

GA环球建筑
2025-11-11 22:13:14
又一“金饭碗”被砸碎!年亏四千万,年轻人排队辞职

又一“金饭碗”被砸碎!年亏四千万,年轻人排队辞职

白梦日记
2025-11-09 19:26:08
18年内蒙22岁空姐从5000米高空坠落,被发现时,手里紧握小木牌

18年内蒙22岁空姐从5000米高空坠落,被发现时,手里紧握小木牌

星宇共鸣
2025-05-14 20:01:58
人到老年才明白的12个道理,别等80-90岁才明白,一切都晚了

人到老年才明白的12个道理,别等80-90岁才明白,一切都晚了

情感大使馆
2025-11-10 09:49:53
恋情有变?正式退出,陈幸同发声,国乒官宣,或和男友分手

恋情有变?正式退出,陈幸同发声,国乒官宣,或和男友分手

有范又有料
2025-10-18 15:53:51
绍兴72岁“麻糍奶奶”遇车祸离世,生前走街串巷挑担卖小吃,官方回应

绍兴72岁“麻糍奶奶”遇车祸离世,生前走街串巷挑担卖小吃,官方回应

极目新闻
2025-11-10 12:59:21
2025-11-12 03:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13845文章数 66242关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

家居
教育
旅游
公开课
军事航空

家居要闻

国美学子 打造筑梦空间

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

旅游要闻

11月11日最佳情报|淄博池上镇山川如画,五龙潭公园泉清柳黄

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版