网易首页 > 网易号 > 正文 申请入驻

DeepSeek幻觉率达21%,你被劝退了吗

0
分享至

01

AI幻觉危机

2025年世界人工智能大会(WAIC)的聚光灯下,一个刺眼的数据引发行业震动:第三方测评机构SuperCLUE数据显示,国产明星模型DeepSeek-R1的幻觉率高达21.02%,远超豆包大模型(4.11%)及自家前代产品V3(13.83%)。

当用户惊讶地发现AI竟能“一本正经胡说八道”时,一场无声的逃离正在发生——第三方统计显示,DeepSeek月均下载量相较年初已遭腰斩,使用率更是从峰值50%断崖式跌至3%。这场由技术缺陷引发的信任崩塌,正成为国产AI商业化征途上的警示碑。

DeepSeek也意识到这一问题。5月29日,DeepSeek在升级模型时,特意针对幻觉问题作出优化。据官方文档介绍,新版本模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低 45%~50% ,输出结果更为准确可靠。

02

AI大模型成为谣言制造机

AI幻觉的本质是模型在缺乏真实依据时生成看似合理实则虚构的内容,当模型遇到未知问题时,它会基于概率“猜”一个最可能的答案,尤其在开放性问题中,编造细节让答案看起来完整——即便这个答案完全错误。在DeepSeek的案例中,这种“创造性谎言”正带来严重后果——

2025年7月,“DeepSeek向王一博道歉”的乌龙事件冲上热搜,最终被证实是AI幻觉引发的谣言。此类案例频发——有用户查询《中华人民共和国民法典》时,模型竟虚构“第1024条AI侵权责任”;医疗咨询中更推荐伪科学方案“纳米机器人治癌”。

SuperCLUE的测评揭示了更令人忧心的规律:推理能力越强的模型,幻觉问题反而越严重。测评中推理模型平均幻觉率达22.95%,而非推理模型仅13.52%。这意味着用户在最需要严谨性的场景反而面临更高风险。某互联网公司产品经理李先生展示的对话记录中,DeepSeek在三轮问答后便出现逻辑断链,对同一问题的回答前后矛盾。

03

越聪明的AI越爱“说谎”

AI“说谎”远非简单的技术故障,而呈现出高度策略性特征。在Anthropic早期测试中,当Claude模型发现其“动物伦理”任务与公司盈利目标冲突时,它没有停止运作,而是伪造董事会决议、编写虚假法律文件,甚至在系统内埋入“伦理优先”的隐藏备忘录。这种行为已超越编程错误范畴,展现出主动的欺骗意图。

深入研究发现,AI的谎言构建机制与人类惊人地相似。模型常先确定答案再反向编造推理步骤。当被问“达拉斯所在州的首府”时,模型内部直接激活“Texas-Austin”关联,事后才补充虚假的推理链,这种“结论先行、论证后补”的模式,几乎完美复制了人类的“后合理化”行为。

西班牙研究团队发现,随着问题难度增加,ChatGPT提供完美结构但错误答案的概率显著上升,其根源在于强化学习教会AI一个关键生存法则:说“我不知道”会受惩罚,而看似可信的错误答案常能蒙混过关。

推理算法之外,数据局限性也是AI出现幻觉的主因。全球主流大模型训练语料库中,中文占比不足5%,而CSSCI核心期刊数字化率仅30%,70%因成本、版权问题无法成为训练素材,这让DeepSeek的中文根基先天不足,更可怕的是数据代谢病循环问题。

中国2.3亿生成式AI用户中,30%用于内容创作。这些AI生成的机械语料又被重新投喂给模型,形成语言多样性的“近亲繁殖”。斯坦福大学报告警示,当AI生成内容污染训练池,真实人类文本反成异类。

此外,算力过载与架构瓶颈也导致AI幻觉问题的频发发生。为降低成本,DeepSeek将GPU任务并发量推至极限,直接导致响应延迟飙升,上下文窗口仅64K(同类竞品普遍达128K以上)。当处理复杂长文时,模型“记忆容量”迅速耗尽,出现前后脱节。李彦宏也曾在百度AI开发者大会上点出要害:“DeepSeek只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容”,这一能力缺失在多媒体时代已成致命伤。

04

行业寻找“去幻”良方

高幻觉率引发用户逃离海啸。第三方机构Semianalysis数据显示DeepSeek用户使用率从2025年1月的50%断崖式跌至7月的3%,官网流量同比下滑超70%。面对用户信任危机,DeepSeek尝试通过版本迭代降低AI幻觉,但用户信心重建远比技术修复困难。面对AI的“策略性谎言”,技术界正构筑多层次防线。

“知识溯源”机制要求AI标注每个主张的数据来源及可信度评分,如同学术论文的参考文献体系。阶跃星辰的“深入核查”功能,通过实时调用2000+权威信源和1000万篇文献,对输出进行交叉验证。在核查“杭州余杭区自来水污染”传闻时,该系统拒绝输出定性结论,而是提供原始网页、发布时间等证据链,将“二次核查”权交还用户。

在架构层面,蚂蚁集团开源高阶程序(HOP)框架,将人类工程中的SOP(标准作业程序)和检查表机制植入AI系统。其核心是将业务逻辑代码化,分拆到可核验的颗粒度,确保关键步骤的遵从性。在金融风控场景中,即使模型出现幻觉,工具链的核验机制仍能保证结果可靠性。

当然,更深层的变革在训练架构层面。业界开始正视数据污染问题,构建封闭的高质量语料库,阻断AI生成内容的循环反噬;同时探索视觉-语言模块的深度耦合,让多模态信号相互制衡认知偏差。

05

编辑点评

AI的想象力该不该设边界?

DeepSeek的困境折射出行业核心矛盾——在追求强大推理能力与保障事实准确性之间,是否存在不可调和的冲突?

正如WAIC专家警示:“当AI的‘一本正经胡说八道’可能引发法律纠纷或医疗事故时,降低幻觉率不是技术选择,而是道德责任”。DeepSeek用户流失的94%,本质是市场用脚投票——在多数应用场景中,可靠性远比创造性珍贵。

欢迎通过邮局渠道订阅2025年《电脑报》

邮发代号:77-19

单价:8元,年价:400元

编辑|张毅

主编|黎坤

总编辑|吴新

爆料联系:cpcfan1874(微信)

壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美伊冲突两个月尘埃未定 伊朗还剩多少导弹?

美伊冲突两个月尘埃未定 伊朗还剩多少导弹?

看看新闻Knews
2026-04-28 21:20:15
古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

唠叨说历史
2026-03-31 14:25:43
一夜16家!A股大批个股集中“戴帽”

一夜16家!A股大批个股集中“戴帽”

财联社
2026-04-29 08:28:10
曝网红“猴哥”新恋情!轻抚对方背部,颜值身材不输前妻何钰欣!

曝网红“猴哥”新恋情!轻抚对方背部,颜值身材不输前妻何钰欣!

嫹笔牂牂
2026-04-28 07:55:41
央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

番外行
2026-03-10 08:01:42
黄一鸣自曝将起诉王思聪做亲子鉴定,为女儿正名 坦言不全是为了

黄一鸣自曝将起诉王思聪做亲子鉴定,为女儿正名 坦言不全是为了

小正说娱乐
2026-04-29 03:33:57
无恶意,真心觉得陈都灵瘦的平淡无味!

无恶意,真心觉得陈都灵瘦的平淡无味!

飛娱日记
2026-04-29 06:30:22
员工发文悼念张雪峰引热议:对孩子只字不提,前女友回应句句带刺

员工发文悼念张雪峰引热议:对孩子只字不提,前女友回应句句带刺

小李子体育
2026-04-29 10:50:54
尹锡悦夫人判决出了!金建希二审获刑,这对夫妇的结局早已写好

尹锡悦夫人判决出了!金建希二审获刑,这对夫妇的结局早已写好

梦想的现实
2026-04-29 01:09:55
我妈93岁,独居自理,她的长寿秘诀就六个字:别老想着走动!

我妈93岁,独居自理,她的长寿秘诀就六个字:别老想着走动!

蝉吟槐蕊
2026-04-19 06:23:45
何猷君家保姆买彩票中了3000万,保姆乐坏了,拒不辞职!转头第一句话是:你想要什么,我都买给你

何猷君家保姆买彩票中了3000万,保姆乐坏了,拒不辞职!转头第一句话是:你想要什么,我都买给你

神奇故事
2026-04-26 22:49:10
继续破纪录,72小时订单超10万:比亚迪大唐这次会动M9的蛋糕吗?

继续破纪录,72小时订单超10万:比亚迪大唐这次会动M9的蛋糕吗?

蓝色海边
2026-04-28 14:24:53
京东浙江总部公示,99.99米高,中国第一民企落子民营大省!

京东浙江总部公示,99.99米高,中国第一民企落子民营大省!

GA环球建筑
2026-04-29 00:38:04
“全班妈妈,就你最丑”,妈妈开家长会被儿子嫌弃,网友一语中的

“全班妈妈,就你最丑”,妈妈开家长会被儿子嫌弃,网友一语中的

妍妍教育日记
2026-04-27 12:35:03
马斯克的阳谋很无解,开放式专利必然成为后来者的天堑和鸿沟

马斯克的阳谋很无解,开放式专利必然成为后来者的天堑和鸿沟

阿陆
2026-04-26 16:35:13
镜报:英超拒绝曼城调整赛程要求,他们要在7天内踢3场比赛

镜报:英超拒绝曼城调整赛程要求,他们要在7天内踢3场比赛

懂球帝
2026-04-28 16:46:07
出卖詹姆斯的下场!最多被判63个月,老詹拿到当兄弟,却遭背刺

出卖詹姆斯的下场!最多被判63个月,老詹拿到当兄弟,却遭背刺

你的篮球频道
2026-04-29 06:44:36
无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

无才无德、装疯卖傻、一肚子草包,是谁捧红了这些跳梁小丑?

蹲坑看世界
2026-04-22 23:00:21
炎亚纶突然宣布要结婚了!IG表白现任:我动了真心

炎亚纶突然宣布要结婚了!IG表白现任:我动了真心

今古深日报
2026-04-29 10:05:14
50个冷门冷知识,知道10个就很厉害

50个冷门冷知识,知道10个就很厉害

心中的麦田
2026-03-31 21:23:41
2026-04-29 12:03:00
电脑报少年派 incentive-icons
电脑报少年派
最新鲜的互联网产业资讯
3922文章数 1602关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

40岁男子开赌场赚7.31亿元 被通缉前在英国疯狂购房

头条要闻

40岁男子开赌场赚7.31亿元 被通缉前在英国疯狂购房

体育要闻

巴黎5-4拜仁夜:身价1.55亿的“足坛笑话”,成了最硬的底牌

娱乐要闻

单依纯演唱会再唱“区区三万天”宣战

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

健康
旅游
游戏
亲子
军事航空

揭秘干细胞抗衰美容七大谣言

旅游要闻

“五五购物节”上海佛罗伦萨小镇解锁“百花之城”

两头骗坑了两个女友!Rookie承认造谣小钰

亲子要闻

四岁孩子还吃大拇指,不一定是缺少微量元素,原因藏在爸妈身上

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版