网易首页 > 网易号 > 正文 申请入驻

敢让 AI 帮你写总结?你也是心大。它连一个字都不认识!

0
分享至


Hi,早上好。

我是洛小山,和你聊聊大模型的幻觉。

这也是新专栏「小山格物」的第一篇。

起因是最近的读者反馈:在掌握提示词技巧后,大家开始对大模型的底层逻辑更感兴趣了。

这个系列,我希望能深入浅出地回应每一位读者的好奇心。

让所有读者能够快速理解晦涩的大模型原理。

第一篇,先聊聊一位科研朋友的困惑。

他的课题偏冷门,但在使用大模型时,生成内容里却充斥着看上去极度专业、但完全虚构的论文数据。

而且语气无比自信。

他的困惑是:

为什么这些读过全人类知识的超级大模型,会在事实性问题上错得这么离谱?

这其实触及到了 LLM 的一个核心命题:大模型看不懂、也不理解你的文字,它只是在进行高维度的数学预测罢了。

01| Token:大模型理解世界的方式

大模型(LLM)理解世界的方式,和人类完全不同。

我们看到的是语义、是逻辑;AI 看到的是一组组数字 ID。

技术上称之为词元(Token)。

这是大模型处理信息的最小颗粒度。

目前的 GPT 等主流模型,普遍采用BPE(Byte Pair Encoding)算法。

这套算法的核心逻辑本质就是统计学:基于语料里的词频,高频的字符组合被合并为一个 Token,低频的则被拆解。

算法逻辑:


  • 常见组合:(如apple):直接打包成一个 Token。
  • 生僻组合:因为词表中没有,被迫拆解成多个Token。

这就是一种在词表大小和语义表达效率之间取得平衡的策略。

BPE 这种分词逻辑有两个特点:


  1. 1.词频强相关:词语分割取决于出现的频率。
  2. 2.语种强相关:不同语种的语料不同,导致拆词方式不同。

在英文语境下,空格是天然的分隔符,但在中文语境下,这是一场没有护栏的裸奔。

因为没有空格作为分隔符,BPE 算法只能完全依赖统计词频来猜测词句的边界。

举个例子:

洛小山说:人工智能正在持续进化。

洛小山說:人工智慧正在持續進化。

LuoXiaoshan said, "Artificial intelligence is continually evolving.

뤄샤오산은 말했습니다: "인공지능은 지속적으로 진화하고 있습니다."



  • 英文:也就是 BPE 的亲儿子。Artificial、intelligence 这种长单词,可以完美地识别为一个独立的 Token。
  • 中文:待遇降级。人工智能这种高频词还能享受到合并待遇,但像洛小山这种词,直接被切碎成了多个字符 ID。
  • 韩文:拆得更碎。因为韩语虽然是拼音文字,但除了습니다这样的终结语尾之外,其他的内容,因为在 GPT 的训练语料里韩文占比极低,导致大量的词汇无法合并,几乎每个音节都被强行拆解。


这种按照词频拆分 Token 的逻辑,也就解释了为什么大模型直接数学计算上翻车。

因为在人类眼中,数字是有位的概念的。我们知道 1000 是一个整体,代表一千。

但在 BPE 算法的视角里,并没有数值的概念,只有字符出现的频率。

但大模型按照统计学拆分的时候,面对 1000 时,如果这个数在词表中不存在,它会被暴力拆解为 100 和 0 两个 Token。

所以,当你直接给大模型一个数学公式的时候,它并没有在做数学运算。

它还在赌:在 100 和 0 和 + 出现之后,下一个出现概率最高的字符是什么?


看到这里,你或许就能理解,以前问他 3.11 和 3.9 哪个更大,早期的模型经常会告诉你 3.11 更大。

就是因为大模型对 Token 理解逻辑不对,11 和 9 单独对比之后导致的。

更好笑的是,这种纯粹基于「统计频率」的逻辑,会产生一些极其诡异的 Bug。比如有一个著名的分词Bad Case:「给主人留下些什么吧」


这么长的一句话,在 OpenAI 的官方 Tokenizer 里,这句长达 9 个字的中文长句,既没有被拆解成单字,也没有分词。

它居然被识别成了 1 个 Token(ID: 177431)。

减少一个字,反而被拆成了两个 Token。


为啥呢?

因为这句话在OpenAI早期的训练数据中(主要来自某些中文博彩、色情网站的垃圾语料),重复出现了非常非常多次。

BPE 算法本身没有价值观,它在训练时只是机械地发现:咦,这串字符出现的频率极高,而且总是粘连在一起。

于是,算法判定这是一个「不可分割的最小语义单元」,强行将其合并为一个独立的Token。

感兴趣可以来这里体验:

platform.openai.com/tokenizer

这就解释了大模型幻觉的根源之一:GPT并没有理解「主人」或「留下」是啥意思,它只是在处理一个统计学上的高频的词而已。

所以,当你的 Prompt 触发了这个符号的概率关联,无论逻辑是否通顺,它都会自信地把这个 Token 抛出来。

02| 本质:是填空,不是扯淡

理解了 Token,你就理解了大模型幻觉的物理本质。

关键点就是:AI 不是搜索引擎,它是生成模型。


  • 搜索引擎的本质是过滤。工作原理是去数据库里翻关键词,如果找到了就给你,找不到就说没有。这叫「检索」。
  • 而AI 的本质是概率预测机。它的工作原理是:基于上文的 Token,计算下一个 Token 出现的概率分布。这叫「生成」。

所以,搜索引擎在帮你找答案,而大模型在帮你拼答案。


学界有个更精准的定义:自回归生成。

它的目标永远是最大化下一个词的出现概率 ,而不是校验命题的真伪。

当你问它一个它不知道的冷门知识时,发生了什么?

比如,你们公司的某个并未公开的内部数据,或者一个极冷门的历史人物。

这在技术上叫做数据黑洞(Data Voids)。

在这些领域,模型缺乏足够的样本来建立稳固的神经连接。

但模型的机制迫使它不能不说话。它必须输出下一个 Token。


假设大模型的内存里只见过这两句话,当我们问:林黛玉是如何倒拔垂杨柳的?

它不关心林黛玉为什么要哭,它只关心在‘林黛’这两个字之后,出现‘玉’的概率是 98%。

于是,它开始根据概率最高的路径,从词表里抓取 Token 来填空。


  • 它从语料里抓取了「垂杨柳」这个词,因为它在资料里出现的概率高;
  • 它甚至编造了一个桥段,为了让内容看起来更自然。


这是个动画,可以到这里体验,更加直观。

luoxiaoshan.cn/hallucination

最终,它拼命地解答你给的完形填空。

然后用最完美的格式、最自信的语气,把这些毫不相干的内容拼在了一起。

对它来说,只要这句话通顺(概率够高),任务就完成了。

至于内容符不符合客观事实?

对不起,Token 只看概率。

你可能会问了,这不完犊子了吗?

我哪知道什么模型在什么时候会怎么样乱说话啊。

解法后面再说,先讲一下普遍情况。

03 | 高危区:哪些场景下幻觉会爆发?

不过,幻觉并不是随机分布的。

就像人类在疲劳或醉酒时容易犯错一样,AI 也有它的「认知高危区」。

理解这些场景,能帮你避开 80% 的坑。

第一种场景:知识的「真空地带」

什么时候大模型最爱乱讲?

答案是:当它真不知道,而你又非逼它回答的时候。

这主要发生在离线状态下询问冷门知识。

在训练数据里,这些信息可能只出现过一两次,甚至根本没有。

但生成机制迫使它必须输出,于是它只能调用「概率上最接近」的通用模板来硬套。


举个例子你就懂了,我打开 DeepSeek,输入这个问题,关掉联网搜索,发送。

提问:缩写《苦柑》片子韩文名叫啥?


这答案给我整笑了。

它不仅编造了一个不存在的韩文名,甚至连电影的「寓意」和「隐喻」都给你编得头头是道。

先还给你整个韩语的首字母缩写呢…


这就是概率生成的坑:因为「苦」和「柑」在语义空间里容易关联到「坏掉的橘子」,所以它顺着概率树编造了一个看似完美实则离谱的故事。

当我们知道,因为大模型内没有相关知识的时候导致的幻觉时,我们就可以加入联网搜索能力来「缓解」注意是缓解幻觉问题。

比如我再打开搜索。


这就是区别。

一旦接通了外部知识库(联网),AI 的幻觉降低了很多。

第二种场景:长文本的上下文腐化(Context Rot)

按照上面搜索的逻辑,那我给大模型超级多的资料,是不是就能直接解决幻觉的问题了?

比如把几十份 PDF 扔给 AI,让它读完这几十万字然后写总结… 美滋滋?

说实话,这往往是幻觉的重灾区。

这是一篇 Chroma 写的上下文腐化的调研报告,大意是:尽管现代大语言模型(LLM)声称拥有数百万token的上下文窗口,但在实际应用中,随着输入长度的增加,模型的性能并非保持一致,而是会出现显著且不可靠的下降。

research.trychroma.com/context-rot

不仅仅是复杂的推理任务,即使是极其简单的需求,当上下文长度增加时,模型也无法保持稳定。

实验显示,模型不仅会出错,甚至会出现拒绝回答或生成随机乱码的情况。


但在实际运转中,Transformer 架构存在一个著名的「首尾效应」。

它对开头(Prompt)和结尾(最新的输入)的注意力最强。

而夹在中间的那几万字,很容易被注意力机制忽略或混淆。

学术界称之为「中间迷失」(Lost in the Middle)。

当关键信息位于长文档的中间部分时,AI 经常会记错、漏掉,甚至为了填补逻辑空白而编造细节。

太遗憾了…

第三种场景:小模型的压缩损耗

现在很流行端侧私有化部署大模型,比如 7B 甚至 1.5B 的小模型。

虽然它们速度快、成本低,但幻觉率通常显著高于超大模型。

原因很简单:压缩即损耗。

GPT-4 可能有 1.8 万亿参数,它能记下许多的内容。

而小模型为了瘦身,被迫丢弃了大量细节信息。

只要是网上不那么高频的内容,几乎必然会出错。


给我整笑了…

可见,模型的尺寸越小,幻觉的概率往往越高。

当模型被压缩,大量的事实细节被丢弃,它就只能靠脑补来填空。

04 | 破局:它是缺陷,也是特性

接下来就引出了一个更深层的问题,幻觉无法解决吗?

随着技术的发展,只要我们把模型做大、版本更新,幻觉是不是就会彻底消失?

答案是有点令人沮丧的:不会。

甚至在某些情况下,模型越强,幻觉会越重。

幻觉是大模型的基本特性,就像原癌基因一样,它是生命的底色,也是生命进化的缺陷。

只要这个架构还是基于概率预测下一个 Token,它就永远存在「幻觉」的可能。


Karpathy 23年发过一个帖子,马斯克也回复了。

大意是:LLM 的幻觉不是 Bug,而是它最伟大的 Feature。


为什么这么说?

因为大模型的本质是做梦。

那个让它能编造出虚假法律案例的机制,和让它能写出精彩科幻小说、生成绝妙代码创意的机制,在底层是完全同一个机制。

如果我们把做梦的能力彻底阉割,AI 就退化成了一个搜索引擎。

我们无法彻底消灭幻觉,但我们可以了解并管控它。

为了量化不同模型的老实程度,Vectara 推出了一个著名的幻觉排行榜(Hallucination Leaderboard)。

https://huggingface.co/spaces/vectara/leaderboard


在这个榜单上,我们看到了「反直觉」的鄙视链:

T1(< 5%):专精的小而美。

类似 Gemini 2.5 Flash Lite、微软的microsoft/Phi-4 等模型说明,在特定领域经过极端微调的模型,或者参数量适中且经过严格对齐的模型,反而更不容易扯谎。

T2(5% - 10%):主流当打之年。

大家常用的主力模型都在这里,比如 DeepSeek V3.2、智谱 GLM 4.6、ChatGPT 5.2 high、Claude Opus 4.5等等,已经相当不错了。

T3(> 10%):新一代的颠佬。

这才是最反直觉的地方,比如我一直在用的 Gemini 3 Pro Preview (13.5%) 的幻觉率居然这么高。

然后主打慢思考、推理能力炸裂的 OpenAI o3-pro,幻觉率居然高达 22.7%!

为什么?

因为「创造力」和「诚实」在 Transformer 架构的天平上往往是互斥的。

一个完全不产生幻觉的模型,可能会变得像老登一样无聊。

另外,大模型的能力越强,脑补就会越多。

o3 和 GPT-5 这类模型,因为创造力和联想能力太强,在面对事实性摘要任务时,反而容易加戏。它们太想给你一个完美的答案,以至于不惜编造细节来补全逻辑链条。

第三,Preview 版不仅不稳定,而且爱撒谎。

很多预览版模型(Preview)为了抢发,在 RLHF(人类反馈强化学习)的诚实性对齐上做得并不充分,导致预览版模型的幻觉也很高。

可见,大模型的幻觉不可避免,这也是你随便打开任何一个 AI 应用,肯定能找到一行字:「内容由 AI 生成,请仔细甄别」的根本原因。

某种意义上,这玩意是个使用说明。

所以,选模型干活时,别只迷信版本。

05|共处:信任,但要验证

当我们拆解到底层,它就是无数个 Token 在数学概率驱动下的生成器。

它有惊人的创造力,但也继承了概率本身的不确定性。

既然幻觉不可避免,我们该怎样和大模型的幻觉共处呢?

就像和下属配合一样,知道他的能力边界,就能更好知人善用。

我们可以参考管理学中著名的方法论:乔哈里视窗和大模型配合。

基于人 和大模型的经验空间,一共分为四个象限。

共识区(人知+AI知): 比如写周报、润色邮件。

AI 的语料极多,Token 连接强,放心用,它是你的超级助理。

私有区(人知+AI不知): 比如你公司的机密数据。

别直接问,要整理好资料投喂它。 把文档传给它,强制它只基于文档回答(这叫 RAG 技术)。

高危区(人不知+AI知): 也就是我那位朋友遇到的情况。

凡是涉及冷门的人名、数据、文献、药物剂量,这里就是幻觉的重灾区。

未知区(人不知+AI也不知):除非你和他脑暴,不然大概率全是乱说的东西。


在高危区这部分的对话,我教你一个最简单的方法,就是多模型联合验证。

可以是试试给大模型提要求:如果你不知道,请回答不知道。

或者要求它「列出每一条信息的来源网址。」

然后,不要只信一家之言。

把同一个复杂的查询任务,分别扔给 ChatGPT、Claude和 Gemini。


  • 如果三个大模型给出的细节(比如某个数据或案例)完全一致,可信度会比较高。
  • 如果它们给出的细节各有出入,那么大概率它们都在乱写。

终|AI 不是神,但也不是妖。

写到这里,我们已经把大模型从神坛上拉了下来。

我们拆解了它的原理,看到了它的局限,但这并不是为了否定大模型。

我相信,祛魅才是掌控的开始。

当你知道大模型只是一个极其努力、偶尔会一本正经胡说八道的概率预测机的时候,你也就找到了与它共处的最佳姿态。

上周,我和读者 @hush 聊起来,他提到一个观点我觉得很有意思。

AI 本质上是它对人类知识的「平均能力」的一种发散。

AI 看得太多,在你不擅长的领域里,能快速把你拉到很高的水平线上。

比如它能给你无数种可能性的组合,能帮你打破思维的惯性,能在几秒钟内生成你三天都写不完的代码Demo。

但它永远无法取代你做两件事:一是「判断」,二是「负责」。


因为,在专业领域里,你才是你的第一责任人。

如果大模型的能力超过了你,那………

你看,


  • AI 可以给你生成 10 个法律案例,但只有你能判断哪一个是真相,哪一个是幻觉。
  • AI 可以给你写出 100 句文案,但只有你能感知哪一句能击中人心。
  • AI 可以给你无数个选项,但只有你能按下那个最终的确认键,并为结果买单。

所以,AI 永远是你的助手,你要为AI 和你共建的内容负责,而不是挑战或批判一番。

在这个真假难辨的 AIGC 时代:请相信技术的算力,但更要相信你自己的判断力。

善用它,压榨它,校准它。

享受它带来的效率红利,但你的手里,要永远握着核查的缰绳。

不要把你大脑的控制权,你文章的质量,轻易地让渡给一个只会做填空题的程序。

因为在算法的概率迷雾中,你的批判性思维,才是唯一的灯塔。

我是洛小山,这是《小山格物》的第一篇。

这篇文章哪一个细节最让你感到恍然大悟?

或者你还对哪些 AI 的奇怪行为感到好奇?

评论区见,你们的好奇心,就是下一篇的选题。

我们在下一篇「格物」见。


关于我

我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点,只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品,欢迎关注我,我们一起进化。

本文知识产权归洛小山所有。

未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
安徽理工大学党委副书记、常务副校长余玉刚任校党委书记

安徽理工大学党委副书记、常务副校长余玉刚任校党委书记

澎湃新闻
2026-01-30 22:15:04
鹿哈将“成为”闫学晶?称连30万都拿不出来,忘记初心易翻车

鹿哈将“成为”闫学晶?称连30万都拿不出来,忘记初心易翻车

然哥闲聊
2026-01-30 21:00:03
不要上当:赶农村大集记住6不买,因为都是假的,别忘转告家人

不要上当:赶农村大集记住6不买,因为都是假的,别忘转告家人

神牛
2026-01-30 19:33:36
金价暴跌7%!20多只黄金股跌停,但最惨的不是股民……

金价暴跌7%!20多只黄金股跌停,但最惨的不是股民……

来咖
2026-01-30 18:45:29
赵丽颖和赵德胤分手了?男方与前女友复合拍新片,没和赵丽颖二搭

赵丽颖和赵德胤分手了?男方与前女友复合拍新片,没和赵丽颖二搭

萌神木木
2026-01-30 16:44:57
21车冻货不约而同被扣押,河南泌阳,请说清楚你们是执法还是明抢

21车冻货不约而同被扣押,河南泌阳,请说清楚你们是执法还是明抢

笔杆论道
2026-01-30 15:22:19
善恶终有报!58岁央视美女主持王小丫,如今现状令人唏嘘不已

善恶终有报!58岁央视美女主持王小丫,如今现状令人唏嘘不已

郭蛹包工头
2026-01-30 04:23:39
CBA积分榜最新排名出炉!深圳杀进前4:四川队21连败垫底

CBA积分榜最新排名出炉!深圳杀进前4:四川队21连败垫底

篮球快餐车
2026-01-31 02:24:49
到了初中,你会发现数学考试低于110分,则完全跟智商没关系

到了初中,你会发现数学考试低于110分,则完全跟智商没关系

好爸育儿
2026-01-27 17:24:54
飞天茅台单瓶破1800元

飞天茅台单瓶破1800元

第一财经资讯
2026-01-30 22:27:19
北京多区局地已飘雪,下午大部分地区有小雪或零星小雪

北京多区局地已飘雪,下午大部分地区有小雪或零星小雪

北青网-北京青年报
2026-01-30 16:14:04
奔驰车大量积压 经销商集体“造反”

奔驰车大量积压 经销商集体“造反”

中车网评
2026-01-29 19:20:17
终于有人管管美国了!美国遇到大麻烦,美国:中美两国需要携手

终于有人管管美国了!美国遇到大麻烦,美国:中美两国需要携手

福建平子
2026-01-28 10:52:25
发现小猫的头被自己踢掉,女子被吓到疯狂尖叫,没想到仔细一看却瞬间无语,猫猫:基操,不要大惊小怪

发现小猫的头被自己踢掉,女子被吓到疯狂尖叫,没想到仔细一看却瞬间无语,猫猫:基操,不要大惊小怪

美芽
2026-01-30 18:34:59
熬夜激战卫冕冠军辛纳,38岁德约科维奇:他将我逼到极限!

熬夜激战卫冕冠军辛纳,38岁德约科维奇:他将我逼到极限!

体育妞世界
2026-01-31 00:47:25
陕西省委常委李明远,有新职

陕西省委常委李明远,有新职

极目新闻
2026-01-30 11:22:17
中美差距再扩大,美国发电量超2.2万亿度,再看中国,差得太远了

中美差距再扩大,美国发电量超2.2万亿度,再看中国,差得太远了

窥史
2026-01-29 19:24:12
福州夫妻用1234万购得清代府邸,翻修绣楼时发现暗室,查看后傻眼

福州夫妻用1234万购得清代府邸,翻修绣楼时发现暗室,查看后傻眼

今天说故事
2025-08-28 18:30:53
市场监管总局公布4起直播电商领域典型案例,成都快购被罚超2600万

市场监管总局公布4起直播电商领域典型案例,成都快购被罚超2600万

界面新闻
2026-01-30 20:32:13
全国“扫黄打非”工作会议在京召开  李书磊出席并讲话

全国“扫黄打非”工作会议在京召开  李书磊出席并讲话

新华社
2026-01-29 19:40:44
2026-01-31 03:28:49
洛小山
洛小山
用体验做推演,用产品思维看AI。
48文章数 8关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

头条要闻

伊朗总统:若美国寻求谈判 就必须停止挑衅

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

时尚
旅游
亲子
家居
军事航空

今日热点:《闪灵》今日上映;保险公司确认金晨方曾放弃索赔……

旅游要闻

吉克隽逸献唱“苏超”冠军主题曲,泰州2026春节文商旅盛宴启幕

亲子要闻

心血管风险或始于子宫孕期不良暴露留下"胎儿期烙印"

家居要闻

蓝调空舍 自由与个性

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版