网易首页 > 网易号 > 正文 申请入驻

大模型最隐蔽的4种“坑”,大多数人每天都在踩

0
分享至


公众号规则是部分推送,您只有设了星标⭐️,才能及时接收最新推送

还有对应方法

1/5

第一类幻觉:冷门知识与多步推理

用AI回答问题,总会经历“从入坑到被坑”的阶段,人类可能有史以来第一次大规模全方面地看到,如何用专业的内容一本正经地胡说八道。

这些错误往往是最像真话的假话,在最不可能犯错的地方犯错,以至于大家不好意思用“犯错”这两个词,而美名曰“幻觉”,意思是说,越是看起来专业、流畅、自信的回答,越有可能隐藏着严重错误。

很多人以为,AI的“幻觉”主要出现在高深复杂的领域。的确,越小众、越冷门、越细分的领域,训练数据越少,越容易瞎编。

比如我经常涉及的金融中的复杂期权的策略、一些小市值股票的问题。不过这种幻觉好理解,危害也不大,能够问冷门知识的人,大部分都有对错误的判断能力,虽然不知道什么是对的,但如果错了,明显会觉得不对劲。

另一种类似情况是复杂问题的多步骤推理,这种幻觉,如果仔细分析大模型的推理过程,并不难发现其中的逻辑漏洞。

以上是大模型第一类易产生幻觉的地方:小众领域和多步推理,当然,也是人类容易犯错的地方。

而后三类才是真正要你命的幻觉,往往出现在你以为“不会错”的地方。

本周四(5.7)中午,我有一场直播,聊聊行情,欢迎预约

2/5

第二类幻觉:精确内容与原文复现

AI经常会犯一个大部分人意想不到的“低级错误”:

比如具体年份、数据、排名、法条编号、人名地名、专业术语,等,大模型容易编数字、凑人名、乱套概念。

还有需要精确引用的内容,比如:原文原话、歌词、诗词、合同条款、论文摘要,等等,大模型经常改字、漏句、张冠李戴。

这种低级错误,如果没有注意就用,后果往往是灾难性的。

这些错误在人类看来低级,但却是这种大语言模型的“预测机制”与生俱来的问题,几乎不可能根治。不管多么高级的大模型,都有可能出现。

比如我们会说“床前明月光”,是因为我们从小就这么背的,但大模型的生成机制并不是背诗,而是逐字预测下一个字出现的概率:在输出“床前”这两个字后,计算接下来出“明”字的概率最高,出完 “明月”,再预测 “光” 的概率最高。

不少人会把“床前明月光”记成“窗前明月光”,但没有人说成“床前明月夜”,但在大模型看来,“光”还是“夜”,就是一个概率问题,而不是是非问题,在参数、上下文或采样设置影响下,也有概率跑偏,预测成“明月夜”这类不符合原诗的内容。

还有编造数字这种典型“低级错误”,也是因为模型并不真正理解“1990年”或“5000美元”的数值含义,它看到的只是“1”“9”“9”“0”这些字符的排列组合。当它预测下一个词时,它是在寻找“看起来最像年份的数字组合”,而不是去数据库里调取真实的年份。因此,它可能会一本正经地编造出一个符合格式但完全不存在的年份。

还有自作主张改原文,仍然因为它是语言模型,为了语句通顺,合乎语言逻辑,它会“自作聪明”地修改原文,或者删掉一些它认为“不重要”的内容,导致引用不精准。

还有逻辑链严格的长文本,比如合同、论文的处理中,模型在完成前半段的主体后,生成后半段时,“注意力”发生了漂移,把A事件的“头”接B事件的“尾”,只要语言本身符合逻辑。


归根到底,精确引用是在考“记忆力”,但大模型没有“记忆自检”能力,它不知道原文长什么样,所以就不会知道自己有没有记错,它只会保证输出做到通顺、像人话、有逻辑。就好像你让一个擅长写作的人去逐字背字典,他也会错,而且错得很自信。

随着模型变得越来越聪明,它们编造的内容在逻辑和语气上会更加逼真,普通人更难一眼识破。模型回答得越流畅、越自信,越要警惕。

3/5

第三类幻觉:编故事

另一个让我深恶痛绝,防不胜防的幻觉就是“喜欢编故事”

对于用AI辅助写网文的人,这是优点,但大部分人用来“知识问答”时,就是灾难现场,比如找案例。

介绍观点、分析理论的文章想要不枯燥,案例必不可少,好的案例无法靠写作时搜索,主要靠平时积累的笔记,本以为AI可以帮我节省这些时间,没想到,在2023年大模型刚刚出来时,它那些有时间有地点有人物有出处的案例,大部分都是现编。

其中原因还是要回到它的原理,当我说“给我一个真实案例”时,它的理解是“给我编一个听起来很真实的小故事”。

比如那时的大模型,最经常发生的幻觉是把腾讯的背景、马云的名言和女装行业的事件拼凑在一起。在模型看来,这种组合在语义概率上是非常“通顺”的,哪怕在现实中一眼假。

这个听上去很简单问题,其实是很难解决的,问题就在于,人工智能的世界没有“真实”两个字。

人类可以理解“真实”,我们知道,看到听到触摸到的东西是真实的,脑子里想象出来的就不是“真实”,但人工智能的“世界”都是“编”的,它自然分不清真实发生过的事和“符合逻辑的虚构故事”。

在人工智能理解中,只要概率值符合要求,结构对、细节够、语气像,就是真实的好案例,它没有“求真”本能,只求“说得通”。

到了2024年,这些大模型基本上都联网了,我以为它有了搜索核对的能力,就可以找到真实案例。

可实际情况是,大模型并不是找不到真实案例,而是天生爱编,而且是优先编,以至于每次都要提醒它——绝对要有出处,要核实,就算如此,它也冷不丁给你一段“关公战秦琼”。

这是因为“学会”搜索后,它出现了更多问题:

比如把那些营销号的案例当成真实事件再加工,更可恶的是,原文本来“一眼假”,但经过它的加工,反而不容易分辨了。

还有,它为了强行适配我的观点,还会对真实案例的细节进行二次加工,再“移花接木”转化为合适的案例,真可耻。

这里还有一个更深层的原因——成本。


对于人类而言,搜索一个真实案例跟编一个有鼻子有眼睛的故事,难度可能差不多。

但大模型为“编”而生,如果让它去找真实案例,它需要多轮检索,尝试多个关键词,需要长文本阅读,消耗海量Token 去“精读”,还需要多个信源交叉比较确认真实性,最后才能生成200字案例,成本可能是直接编的 10-100 倍。

在模型算力普遍紧张的情况下,如果不约束,它一定是优先编。你越是要真实具体,它越是只能编,编人编数字编一些推测出来的细节,只为了让文字更合理。

4/5

第四类幻觉:主观评价与谄媚回答

还有两个常见的幻觉,但是严格的说,大模型并没有错,有幻觉的是提问者。

一类是让AI作出主观评价,比如“林冲和关羽谁最厉害”,还有让它预测未来,“哪个股票会涨”“未来通缩什么时候结束”,此时大模型容易给出看似合理、实则无依据的武断结论。

当然,这一类问题本来就没有标准答案,也不能说它错,但它极强的逻辑,瞎话都能说的头头是道,往往给人答案“非常可信”的幻觉,所以我一开头说,这其实是提问者的幻觉。

另一种是模糊、歧义、诱导式提问。

早期的大模型,如果你没头没脑的问一句“这个药有用吗”,模型压根不知道是什么药?但它不会说 “我不知道”,它会强行给你一个听起来很专业的回答,里面的原理、效果、注意事项,全是编的,实际上,它是在猜你问什么药——这哪儿猜得到啊。

现在已经不会犯这一类错误了,但“猜测你想问的问题”的本性并没有变。

你丢给它一个想法,问它“我这个想法好不好”,它大概率会先顺着你的话,夸你一通,这个想法简直是“一语中的”啊,甚至可能胡编几个专家的观点,然后才说它真正认可的观点,但语气上是“补充”,反而感觉不那么重要。

你问得越模糊、越带偏向,它编得越自洽(因为没有约束)。如果你有一定的自恋倾向,那有幻觉的实际上是你自己。

5/5

对应方法

总结一下,大模型的四类幻觉:

小众冷门知识:数据不足,瞎编

精确事实与引用:没有“记忆自检”,出现低级错误

案例与故事:优先“编”而不是“找”

主观问题与诱导提问:迎合你,而不是纠正你

对应的解决方法,本质上只有一句话:不要把它当成“知道答案的人”,而要把它当成“特别会说话的人”。

第一类幻觉:小众冷门专业知识类问题

不能简单直接丢问题,而是要求它只能引用“公认、通用、教材级”的材料回答问题,并要求“如果不确定就说明不确定”。

第二类幻觉:需要精确引用的内容

一方面,要在提问中注明“请逐字准确写出《XX》原文,若无法保证100%准确请直接说明”;另一方面,要求它给出有权威的信息来源,要求它只列确定事实,不确定不要编。

但就我的经验,这类幻觉是无法绝对避免的,错误的代价又很高,所以在使用大模型处理精确事实和精确引用时,特别是形成重要文本时,一定一定要保持“零信任”的态度,即使是最顶级的大模型,要做到:

核实关键数据:所有的数字、年份、人名,必须通过搜索引擎或官方文档进行二次核对。

不要直接复制引用:对于合同条款或论文引用,必须对照原文逐字检查。

不要用人类的思维方式主观的认为某些简单的地方不可能出错,不需要核实,人类对复杂的判断跟大模型完全不是一回事。

第三类幻觉:编故事

提问时要求它“提供真实存在、公开可查的案例”“禁止虚构、禁止编造人名公司数据”“没有就说没有”。

但跟前一类一样,本质上无法杜绝,真实性还是要靠自己判断。

第四类:主观评价及诱导式提问

提问时,不要用“我有一个想法”,而是“我看到一个说法”,并且对没有正确答案的主观评价类问题的答案,可以同时让大模型给出一个相反的判断和理由

不过,即使你完全理解了这些机制,在实际使用中,你依然很容易被它骗。

因为真正让人防不住的,其实是它和人类思维方式之间的惊人相似性,大模型的幻觉,常常是把人类原本就存在的思维偏差,放大、加速、标准化了。

这篇文章写得太长了,下半篇我想换一个角度,不再讲“AI哪里错了”,而是探讨一个更深层的问题:

AI的这些幻觉中,可以看到多少人类自身的问题?

——钢大的财富新思维圈子——

近两年全球股市上涨、商品通胀、黄金暴涨、航运暴涨,资本转移……,既是机会,也是风险,需要时刻关注全球宏观经济的变化,建议订阅我的“钢大的财富新思维圈子”,这是一个以全球宏观分析与资产配置方案为特色的圈子,每天更新全球各大类资产观点,定期更新全球资产配置方案。

新圈子主要提供以下五大类内容:

1、全球宏观每日解读

2、更新资产配置方案

3、社群与精选问答

4、不定期内部直播

5、资讯、培训和金融产品

文章比较长了,更具体的介绍,可以看次条文章:

欢迎关注本公众号

我还有另一个专业分享投资方法的公众号,也是周更

近一年必看文章


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!国乒劲敌退出伦敦世乒赛!此前3-2爆冷击败国乒男团!

突发!国乒劲敌退出伦敦世乒赛!此前3-2爆冷击败国乒男团!

好乒乓
2026-05-06 17:00:44
打虎!合肥市委书记费高云被查

打虎!合肥市委书记费高云被查

新京报政事儿
2026-05-06 16:24:03
罗德里格斯干了什么!掌权百天,国家不仅没打内战,反而蒸蒸日上

罗德里格斯干了什么!掌权百天,国家不仅没打内战,反而蒸蒸日上

铁锤侃侃而谈
2026-05-06 09:58:10
老照片还原格瓦拉被捕遇害全过程:身体被肢解,遇害47年后才曝光

老照片还原格瓦拉被捕遇害全过程:身体被肢解,遇害47年后才曝光

史之铭
2026-05-05 17:49:57
王毅部长最新照片令网友心酸,73岁的他为何仍奋战在外交一线?

王毅部长最新照片令网友心酸,73岁的他为何仍奋战在外交一线?

李昕言温度空间
2026-05-06 20:34:07
国际足联也急了!原来除了中国,还有这么多国家不给世界杯买单了

国际足联也急了!原来除了中国,还有这么多国家不给世界杯买单了

阿纂看事
2026-05-06 15:55:12
四会市委书记翁卓辉被查

四会市委书记翁卓辉被查

南方都市报
2026-05-06 17:54:08
4月销量暴涨 北汽蓝谷凭硬核实力扛住市场波动

4月销量暴涨 北汽蓝谷凭硬核实力扛住市场波动

道哥说车
2026-05-06 16:21:07
新周期下的价值锚点:广汽传祺如何重构家庭出行的“长期资产”?

新周期下的价值锚点:广汽传祺如何重构家庭出行的“长期资产”?

智谷趋势
2026-05-01 18:18:23
王心凌在深圳演出中遇意外:舞台镭射激光设备失控,强光直射王心凌腿部;网友反映激光长时间大面积扫射观众席,致手机相机镜头等设备损坏

王心凌在深圳演出中遇意外:舞台镭射激光设备失控,强光直射王心凌腿部;网友反映激光长时间大面积扫射观众席,致手机相机镜头等设备损坏

洪观新闻
2026-05-06 12:06:56
丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

闪电新闻
2026-05-06 12:58:59
瀑布秋千亲历者:“没绑紧”不是遇难女孩说的

瀑布秋千亲历者:“没绑紧”不是遇难女孩说的

中国新闻周刊
2026-05-06 22:12:01
5月1日起,抽烟,买烟全变天!违规直接重罚,烟民、商家必看

5月1日起,抽烟,买烟全变天!违规直接重罚,烟民、商家必看

王二哥老搞笑
2026-05-05 21:10:10
伟伟道来 | 伊朗的反应为何如此激烈

伟伟道来 | 伊朗的反应为何如此激烈

经济观察报
2026-05-06 11:40:46
卡里克转正首签!锁定拜仁新援,曼联夏窗将围绕“卡式战术”重建

卡里克转正首签!锁定拜仁新援,曼联夏窗将围绕“卡式战术”重建

体坛鉴春秋
2026-05-06 18:00:06
三星:停止在中国大陆市场销售家电!知情人士回应三星中国业务大调整

三星:停止在中国大陆市场销售家电!知情人士回应三星中国业务大调整

红星新闻
2026-05-06 22:11:21
3孩2个非亲生后续:妻子真容曝光社死,男方工作遭牵连,已起诉

3孩2个非亲生后续:妻子真容曝光社死,男方工作遭牵连,已起诉

阿讯说天下
2026-05-06 11:40:01
快讯!伊朗变天了!

快讯!伊朗变天了!

达文西看世界
2026-05-06 09:44:12
48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

近史博览
2026-05-06 14:42:13
吴宜泽抽烟照曝光!外网调侃:我们沉迷于电子烟 中国人都抽香烟

吴宜泽抽烟照曝光!外网调侃:我们沉迷于电子烟 中国人都抽香烟

念洲
2026-05-06 07:42:45
2026-05-07 02:11:00
人神共奋 incentive-icons
人神共奋
颠覆你对职场的看法
599文章数 1447关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

头条要闻

特朗普:伊朗可能将其高浓缩铀运往美国

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

时尚
教育
游戏
本地
军事航空

有些路,不必每一步都走得那么用力

教育要闻

稍微好上岸的985与211(求稳可冲!!!)

LPL第二赛段:滔搏排名迅速滑落!JDG三局战胜TES

本地新闻

用青花瓷的方式,打开西溪湿地

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版