网易首页 > 网易号 > 正文 申请入驻

DeepSeek幻觉率达21%,今年WAIC研究劝退“一本正经胡说八道”

0
分享至



2025年世界人工智能大会各大论坛的议题中,“安全治理”几乎是绕不开的话题。记者在采访中发现,“AI确定性”也常常被人提及。

特别是DeepSeek-R1的横空出世,给业界带来震撼的同时,也引发了隐忧:推理能力越强,AI幻觉越高。在AI加速商业化落地的浪潮中,降低AI幻觉、提升输出的确定性,已成为业界面临的一道必答题。

推理模型的幻觉更严重

最近,一则“DeepSeek向王一博道歉”的消息冲上热搜。而事实证明是,AI幻觉导致以讹传讹,最终成了谣言。这无疑是AI时代的荒诞现实。

所谓的AI幻觉,就是大模型在“一本正经地胡说八道”。中文通用大模型综合性测评基准SuperCLUE的测评结果显示,DeepSeek-R1模型幻觉率高达21.02%,远远低于豆包大模型的4.11%,也低于DeepSeek另一款大语言模型V3的13.83%。该测评结果还显示,推理模型的幻觉比非推理模型更严重,推理模型平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。


或许是过高的幻觉率,劝退了很多用户。第三方统计数据显示,相较于年初,DeepSeek的月均下载量与使用率已大幅下降。

DeepSeek也意识到这一问题。5月29日,DeepSeek在升级模型时,特意针对幻觉问题作出优化。据官方文档介绍,新版本模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低 45%—50% ,输出结果更为准确可靠。

AI幻觉难以避免

AI幻觉,本质上源于大模型的双重技术局限:一是推理时编造内容,二是训练数据不全。大模型只能靠训练数据来理解世界,如果训练数据漏掉了关键信息,或者有错误内容,大模型输出的结果就容易出错。

遗憾的是,“爱编故事”是大模型的天生缺陷。抛开那些复杂的技术原理,大模型生成的内容,主要就靠“猜”——遇到没学过的内容,会根据概率猜一个最可能的答案来补全,尤其是在回答开放性问题时,大模型常会编细节让答案看起来更完整,即便这是一个错误的答案。

另外,太多质量参差不齐的数据,也会让大模型“犯迷糊”,这些数据很可能相互矛盾,训练出来的大模型就容易说出前后矛盾或完全错误的话。

但是,AI幻觉也并非洪水猛兽。很多人想不到的是,人类也会产生幻觉,甚至依赖幻觉做出决策。

2025世界人工智能大会主论坛上,深度学习之父、2024年物理学诺奖得主杰弗里·辛顿语出惊人:人们理解语言的方式和大语言模型理解语言的方式几乎一样,人类有可能就是大语言模型,人类也会和大语言模型一样产生幻觉。

前不久,OpenAI的竞争对手Anthropic创始人公开表示,大模型产生幻觉的频率可能比人类还低,只是它们出错的方式经常出人意料。

把“二次核查”权利交给用户

既然AI幻觉无法彻底消除,那么尽可能减少幻觉概率,成了大模型落地应用必须跨越的门槛。

实践证明,不断优化算法和构建可控信源,能有效降低AI幻觉的负面影响。例如,阶跃星辰为大模型增加了“深入核查”的功能,保证模型输出结果的可信性。


阶跃AI的“深入核查”功能。

据阶跃AI产品负责人陈男群告诉记者,“深入核查”能调用大模型自身的四种能力:强大的信息获取引擎、交叉信源核查、信源权威性评估和提供引用来源。

“阶跃AI融合了各类搜索源和网页信息解析工具,实时获取互联网上大量信息,以弥补信源不足的短板。同时还能追踪事实陈述、数据引用等关键信息的来源,通过不同信息源进行交叉验证。更关键的是,我们会尽可能找到一手的、具备权威性的专业信源,并让模型理解不同信源渠道的可信度差异。”陈男群介绍,阶跃AI的特别之处在于“不输出‘事实’输出证据”,不让AI说“假、大、空”的定性结论,输出内容的同时还提供多个引用来源、原始网页、发布时间等详细信息,为用户提供“二次核查”的依据。

据悉,阶跃AI的“深入核查”获取了2000多个优质信源,文献库数量超过1000万篇,试运行一周内就登上了海外AI产品榜单前十名,收到用户正面反馈。

原标题:《DeepSeek幻觉率达21%,今年WAIC研究劝退“一本正经胡说八道”》

栏目主编:李晔

来源:作者:解放日报 查睿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,基础物理重大突破!中国首次测到米格达尔效应

刚刚,基础物理重大突破!中国首次测到米格达尔效应

徐德文科学频道
2026-01-18 22:58:59
很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

忠于法纪
2026-01-18 17:42:24
云南医生曝李亚鹏嫣然医院猛料!细节感人,称李亚鹏不该被辜负

云南医生曝李亚鹏嫣然医院猛料!细节感人,称李亚鹏不该被辜负

小徐讲八卦
2026-01-18 08:57:20
茅台顶级阳谋!清空千吨“存货”,终究是赢麻了!

茅台顶级阳谋!清空千吨“存货”,终究是赢麻了!

疯狂小菠萝
2026-01-18 15:59:59
庄则栋走了,穆铁柱走了,聂卫平走了,体育界4大脊梁就他还活着

庄则栋走了,穆铁柱走了,聂卫平走了,体育界4大脊梁就他还活着

林子说事
2026-01-18 15:05:56
安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

牛牛叨史
2026-01-06 12:59:43
智商税真贵啊!14万买的钻石项链只值200块,女子吐槽欲哭无泪…

智商税真贵啊!14万买的钻石项链只值200块,女子吐槽欲哭无泪…

火山诗话
2026-01-18 06:29:32
如果联合国解散了,一大批有寄生属性的国家将失去稳定的经济来源

如果联合国解散了,一大批有寄生属性的国家将失去稳定的经济来源

扶苏聊历史
2026-01-17 14:04:07
伊朗总统称攻击最高领袖致全面战争

伊朗总统称攻击最高领袖致全面战争

财联社
2026-01-18 23:48:01
中国U23国足晋级四强!他凭啥独得韩媒青睐引热议?

中国U23国足晋级四强!他凭啥独得韩媒青睐引热议?

麦咪熊熊
2026-01-19 00:59:34
高雄市长之战支持谁?7万人网络投票结果一面倒

高雄市长之战支持谁?7万人网络投票结果一面倒

新时光点滴
2026-01-18 04:53:12
A股:刚刚,大消息传来,释放三信号,19号将迎更大级别暴风雨?

A股:刚刚,大消息传来,释放三信号,19号将迎更大级别暴风雨?

夜深爱杂谈
2026-01-18 20:13:33
官宣:陈丽君、李云霄,破格晋升

官宣:陈丽君、李云霄,破格晋升

新京报政事儿
2026-01-18 11:59:13
拆迁梦碎!深圳月亮湾花园还能自救吗?

拆迁梦碎!深圳月亮湾花园还能自救吗?

楼市灭霸
2026-01-18 10:16:25
原来宋祖英年轻的时候,颜值这么能打,而且还是纯天然的

原来宋祖英年轻的时候,颜值这么能打,而且还是纯天然的

东方不败然多多
2026-01-19 00:36:29
杀熟太狠!普通改签航司1910,携程却要7662,网友:远超电信诈骗

杀熟太狠!普通改签航司1910,携程却要7662,网友:远超电信诈骗

火山诗话
2026-01-17 15:40:33
徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

徐寅生:国家用纳税人的钱培养运动员 打不打奥运会不该由WTT决定

念洲
2026-01-18 16:12:52
李健:不生孩子不买房,不用微信,讨厌早睡早起,一天只吃一顿饭

李健:不生孩子不买房,不用微信,讨厌早睡早起,一天只吃一顿饭

观察鉴娱
2026-01-18 13:51:09
闰土背刺太阳女主持?曾舜晞小透明?尹正没演技?王瑞昌打酱油?姨太问答

闰土背刺太阳女主持?曾舜晞小透明?尹正没演技?王瑞昌打酱油?姨太问答

毒舌扒姨太
2026-01-18 22:14:22
341:79!美国最新投票结果出炉,特朗普转变态度,一口气拉黑75国

341:79!美国最新投票结果出炉,特朗普转变态度,一口气拉黑75国

起喜电影
2026-01-19 01:07:15
2026-01-19 03:28:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
420663文章数 758833关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

本地
家居
时尚
数码
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

岁月柔情 现代品质轻奢

美拉德过时了?今年冬天最火的4个颜色竟然是它们

数码要闻

保时捷设计推C-Seed折叠电视,售价超三台911

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版