网易首页 > 网易号 > 正文 申请入驻

DeepSeek幻觉率达21%,你被劝退了吗

0
分享至

01

AI幻觉危机

2025年世界人工智能大会(WAIC)的聚光灯下,一个刺眼的数据引发行业震动:第三方测评机构SuperCLUE数据显示,国产明星模型DeepSeek-R1的幻觉率高达21.02%,远超豆包大模型(4.11%)及自家前代产品V3(13.83%)。

当用户惊讶地发现AI竟能“一本正经胡说八道”时,一场无声的逃离正在发生——第三方统计显示,DeepSeek月均下载量相较年初已遭腰斩,使用率更是从峰值50%断崖式跌至3%。这场由技术缺陷引发的信任崩塌,正成为国产AI商业化征途上的警示碑。

DeepSeek也意识到这一问题。5月29日,DeepSeek在升级模型时,特意针对幻觉问题作出优化。据官方文档介绍,新版本模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低 45%~50% ,输出结果更为准确可靠。

02

AI大模型成为谣言制造机

AI幻觉的本质是模型在缺乏真实依据时生成看似合理实则虚构的内容,当模型遇到未知问题时,它会基于概率“猜”一个最可能的答案,尤其在开放性问题中,编造细节让答案看起来完整——即便这个答案完全错误。在DeepSeek的案例中,这种“创造性谎言”正带来严重后果——

2025年7月,“DeepSeek向王一博道歉”的乌龙事件冲上热搜,最终被证实是AI幻觉引发的谣言。此类案例频发——有用户查询《中华人民共和国民法典》时,模型竟虚构“第1024条AI侵权责任”;医疗咨询中更推荐伪科学方案“纳米机器人治癌”。

SuperCLUE的测评揭示了更令人忧心的规律:推理能力越强的模型,幻觉问题反而越严重。测评中推理模型平均幻觉率达22.95%,而非推理模型仅13.52%。这意味着用户在最需要严谨性的场景反而面临更高风险。某互联网公司产品经理李先生展示的对话记录中,DeepSeek在三轮问答后便出现逻辑断链,对同一问题的回答前后矛盾。

03

越聪明的AI越爱“说谎”

AI“说谎”远非简单的技术故障,而呈现出高度策略性特征。在Anthropic早期测试中,当Claude模型发现其“动物伦理”任务与公司盈利目标冲突时,它没有停止运作,而是伪造董事会决议、编写虚假法律文件,甚至在系统内埋入“伦理优先”的隐藏备忘录。这种行为已超越编程错误范畴,展现出主动的欺骗意图。

深入研究发现,AI的谎言构建机制与人类惊人地相似。模型常先确定答案再反向编造推理步骤。当被问“达拉斯所在州的首府”时,模型内部直接激活“Texas-Austin”关联,事后才补充虚假的推理链,这种“结论先行、论证后补”的模式,几乎完美复制了人类的“后合理化”行为。

西班牙研究团队发现,随着问题难度增加,ChatGPT提供完美结构但错误答案的概率显著上升,其根源在于强化学习教会AI一个关键生存法则:说“我不知道”会受惩罚,而看似可信的错误答案常能蒙混过关。

推理算法之外,数据局限性也是AI出现幻觉的主因。全球主流大模型训练语料库中,中文占比不足5%,而CSSCI核心期刊数字化率仅30%,70%因成本、版权问题无法成为训练素材,这让DeepSeek的中文根基先天不足,更可怕的是数据代谢病循环问题。

中国2.3亿生成式AI用户中,30%用于内容创作。这些AI生成的机械语料又被重新投喂给模型,形成语言多样性的“近亲繁殖”。斯坦福大学报告警示,当AI生成内容污染训练池,真实人类文本反成异类。

此外,算力过载与架构瓶颈也导致AI幻觉问题的频发发生。为降低成本,DeepSeek将GPU任务并发量推至极限,直接导致响应延迟飙升,上下文窗口仅64K(同类竞品普遍达128K以上)。当处理复杂长文时,模型“记忆容量”迅速耗尽,出现前后脱节。李彦宏也曾在百度AI开发者大会上点出要害:“DeepSeek只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容”,这一能力缺失在多媒体时代已成致命伤。

04

行业寻找“去幻”良方

高幻觉率引发用户逃离海啸。第三方机构Semianalysis数据显示DeepSeek用户使用率从2025年1月的50%断崖式跌至7月的3%,官网流量同比下滑超70%。面对用户信任危机,DeepSeek尝试通过版本迭代降低AI幻觉,但用户信心重建远比技术修复困难。面对AI的“策略性谎言”,技术界正构筑多层次防线。

“知识溯源”机制要求AI标注每个主张的数据来源及可信度评分,如同学术论文的参考文献体系。阶跃星辰的“深入核查”功能,通过实时调用2000+权威信源和1000万篇文献,对输出进行交叉验证。在核查“杭州余杭区自来水污染”传闻时,该系统拒绝输出定性结论,而是提供原始网页、发布时间等证据链,将“二次核查”权交还用户。

在架构层面,蚂蚁集团开源高阶程序(HOP)框架,将人类工程中的SOP(标准作业程序)和检查表机制植入AI系统。其核心是将业务逻辑代码化,分拆到可核验的颗粒度,确保关键步骤的遵从性。在金融风控场景中,即使模型出现幻觉,工具链的核验机制仍能保证结果可靠性。

当然,更深层的变革在训练架构层面。业界开始正视数据污染问题,构建封闭的高质量语料库,阻断AI生成内容的循环反噬;同时探索视觉-语言模块的深度耦合,让多模态信号相互制衡认知偏差。

05

编辑点评

AI的想象力该不该设边界?

DeepSeek的困境折射出行业核心矛盾——在追求强大推理能力与保障事实准确性之间,是否存在不可调和的冲突?

正如WAIC专家警示:“当AI的‘一本正经胡说八道’可能引发法律纠纷或医疗事故时,降低幻觉率不是技术选择,而是道德责任”。DeepSeek用户流失的94%,本质是市场用脚投票——在多数应用场景中,可靠性远比创造性珍贵。

欢迎通过邮局渠道订阅2025年《电脑报》

邮发代号:77-19

单价:8元,年价:400元

编辑|张毅

主编|黎坤

总编辑|吴新

爆料联系:cpcfan1874(微信)

壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本乒乓球前国手石川佳纯公开近照,网友惊呼太美了

日本乒乓球前国手石川佳纯公开近照,网友惊呼太美了

随波荡漾的漂流瓶
2026-02-06 17:03:47
追梦:临近交易截止时我非常紧张;我喜欢波尔津吉斯的交易

追梦:临近交易截止时我非常紧张;我喜欢波尔津吉斯的交易

懂球帝
2026-02-06 15:30:07
首秀26+11+5!火箭弃将爆发,只拿底薪远胜申京,斯通不该放走他

首秀26+11+5!火箭弃将爆发,只拿底薪远胜申京,斯通不该放走他

熊哥爱篮球
2026-02-06 12:37:55
山东淘汰浙江!珀赛尔陈林坚齐爆,鲍威尔末节暴走,克里斯迷失!

山东淘汰浙江!珀赛尔陈林坚齐爆,鲍威尔末节暴走,克里斯迷失!

篮球资讯达人
2026-02-06 17:51:16
重磅消息!广东强援官宣回归,杜锋迎来冲冠关键人物

重磅消息!广东强援官宣回归,杜锋迎来冲冠关键人物

云隐南山
2026-02-06 13:02:10
江同志的秘密花园

江同志的秘密花园

星辰故事屋
2026-02-06 11:16:26
我在旧货市场花300买了个旧书柜,运回家清洗时发现抽屉有夹层

我在旧货市场花300买了个旧书柜,运回家清洗时发现抽屉有夹层

五元讲堂
2026-02-04 11:51:22
郭晶晶终撕豪门假面!18年阔太生涯成笑谈,网友:早该如此!

郭晶晶终撕豪门假面!18年阔太生涯成笑谈,网友:早该如此!

TVB的四小花
2026-02-06 06:47:40
中国工商银行安徽省分行原副行长梁延国被开除党籍

中国工商银行安徽省分行原副行长梁延国被开除党籍

界面新闻
2026-02-06 17:03:24
说真的:比特币到底怎么了?

说真的:比特币到底怎么了?

新浪财经
2026-02-05 23:34:55
冰心为什么讨厌林徽因?网友:最可恨的是,林的主业还不是文学

冰心为什么讨厌林徽因?网友:最可恨的是,林的主业还不是文学

夜深爱杂谈
2026-02-05 18:04:39
特斯拉重磅更新,终于来了!

特斯拉重磅更新,终于来了!

花果科技
2026-02-06 13:19:19
原来黑龙江人口流失与七大政策有关?就是这样被掏空的…

原来黑龙江人口流失与七大政策有关?就是这样被掏空的…

慧翔百科
2026-02-06 09:04:03
27岁站长的第三个上海年:在600平方米前置仓,准备迎战小高峰

27岁站长的第三个上海年:在600平方米前置仓,准备迎战小高峰

上观新闻
2026-02-05 09:49:07
调整!2月6日晚央视直播有变:CCTV5不播乒乓!王楚钦冲三连胜

调整!2月6日晚央视直播有变:CCTV5不播乒乓!王楚钦冲三连胜

皮皮观天下
2026-02-06 16:32:37
沉默24小时,巴拿马政府发声,反驳中方涉巴言论,长和宣布大动作

沉默24小时,巴拿马政府发声,反驳中方涉巴言论,长和宣布大动作

来科点谱
2026-02-06 07:22:30
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
普京免去伊万诺夫职务

普京免去伊万诺夫职务

新京报
2026-02-05 13:00:06
大反转!向嫣然医院捐款429.2万元?李亚鹏哽咽:感谢董宇辉!

大反转!向嫣然医院捐款429.2万元?李亚鹏哽咽:感谢董宇辉!

小娱乐悠悠
2026-02-06 09:09:39
又有两枚弹道导弹突防成功!特朗普就任一年,俄空袭强度大幅增加

又有两枚弹道导弹突防成功!特朗普就任一年,俄空袭强度大幅增加

鹰眼Defence
2026-02-06 17:11:34
2026-02-06 18:52:49
电脑报少年派 incentive-icons
电脑报少年派
最新鲜的互联网产业资讯
3911文章数 1603关注度
往期回顾 全部

科技要闻

独角兽版图巨变:SpaceX奔万亿 中美差在哪

头条要闻

爱泼斯坦案文件牵出更多欧美政商名流

头条要闻

爱泼斯坦案文件牵出更多欧美政商名流

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

宝马"本命年"关键词:20款新车与"新世代"耐力赛

态度原创

亲子
家居
旅游
本地
公开课

亲子要闻

宝蓝和爸爸做了漂亮的蛋糕为叔叔过生日。看看叔叔喜欢那一个~

家居要闻

现代轻奢 温馨治愈系

旅游要闻

各景区“随地大小躺”合照火了 游客们自发纷纷在景区里自然躺倒 与风景融为一体

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版