网易首页 > 网易号 > 正文 申请入驻

DeepSeek幻觉率达21%,今年WAIC研究劝退“一本正经胡说八道”

0
分享至



2025年世界人工智能大会各大论坛的议题中,“安全治理”几乎是绕不开的话题。记者在采访中发现,“AI确定性”也常常被人提及。

特别是DeepSeek-R1的横空出世,给业界带来震撼的同时,也引发了隐忧:推理能力越强,AI幻觉越高。在AI加速商业化落地的浪潮中,降低AI幻觉、提升输出的确定性,已成为业界面临的一道必答题。

推理模型的幻觉更严重

最近,一则“DeepSeek向王一博道歉”的消息冲上热搜。而事实证明是,AI幻觉导致以讹传讹,最终成了谣言。这无疑是AI时代的荒诞现实。

所谓的AI幻觉,就是大模型在“一本正经地胡说八道”。中文通用大模型综合性测评基准SuperCLUE的测评结果显示,DeepSeek-R1模型幻觉率高达21.02%,远远低于豆包大模型的4.11%,也低于DeepSeek另一款大语言模型V3的13.83%。该测评结果还显示,推理模型的幻觉比非推理模型更严重,推理模型平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。


或许是过高的幻觉率,劝退了很多用户。第三方统计数据显示,相较于年初,DeepSeek的月均下载量与使用率已大幅下降。

DeepSeek也意识到这一问题。5月29日,DeepSeek在升级模型时,特意针对幻觉问题作出优化。据官方文档介绍,新版本模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低 45%—50% ,输出结果更为准确可靠。

AI幻觉难以避免

AI幻觉,本质上源于大模型的双重技术局限:一是推理时编造内容,二是训练数据不全。大模型只能靠训练数据来理解世界,如果训练数据漏掉了关键信息,或者有错误内容,大模型输出的结果就容易出错。

遗憾的是,“爱编故事”是大模型的天生缺陷。抛开那些复杂的技术原理,大模型生成的内容,主要就靠“猜”——遇到没学过的内容,会根据概率猜一个最可能的答案来补全,尤其是在回答开放性问题时,大模型常会编细节让答案看起来更完整,即便这是一个错误的答案。

另外,太多质量参差不齐的数据,也会让大模型“犯迷糊”,这些数据很可能相互矛盾,训练出来的大模型就容易说出前后矛盾或完全错误的话。

但是,AI幻觉也并非洪水猛兽。很多人想不到的是,人类也会产生幻觉,甚至依赖幻觉做出决策。

2025世界人工智能大会主论坛上,深度学习之父、2024年物理学诺奖得主杰弗里·辛顿语出惊人:人们理解语言的方式和大语言模型理解语言的方式几乎一样,人类有可能就是大语言模型,人类也会和大语言模型一样产生幻觉。

前不久,OpenAI的竞争对手Anthropic创始人公开表示,大模型产生幻觉的频率可能比人类还低,只是它们出错的方式经常出人意料。

把“二次核查”权利交给用户

既然AI幻觉无法彻底消除,那么尽可能减少幻觉概率,成了大模型落地应用必须跨越的门槛。

实践证明,不断优化算法和构建可控信源,能有效降低AI幻觉的负面影响。例如,阶跃星辰为大模型增加了“深入核查”的功能,保证模型输出结果的可信性。


阶跃AI的“深入核查”功能。

据阶跃AI产品负责人陈男群告诉记者,“深入核查”能调用大模型自身的四种能力:强大的信息获取引擎、交叉信源核查、信源权威性评估和提供引用来源。

“阶跃AI融合了各类搜索源和网页信息解析工具,实时获取互联网上大量信息,以弥补信源不足的短板。同时还能追踪事实陈述、数据引用等关键信息的来源,通过不同信息源进行交叉验证。更关键的是,我们会尽可能找到一手的、具备权威性的专业信源,并让模型理解不同信源渠道的可信度差异。”陈男群介绍,阶跃AI的特别之处在于“不输出‘事实’输出证据”,不让AI说“假、大、空”的定性结论,输出内容的同时还提供多个引用来源、原始网页、发布时间等详细信息,为用户提供“二次核查”的依据。

据悉,阶跃AI的“深入核查”获取了2000多个优质信源,文献库数量超过1000万篇,试运行一周内就登上了海外AI产品榜单前十名,收到用户正面反馈。

原标题:《DeepSeek幻觉率达21%,今年WAIC研究劝退“一本正经胡说八道”》

栏目主编:李晔

来源:作者:解放日报 查睿

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川马尔康市红旗桥垮塌:系山体变形加剧滑塌造成 无人员伤亡

四川马尔康市红旗桥垮塌:系山体变形加剧滑塌造成 无人员伤亡

新京报
2025-11-11 20:23:08
祖副院长寒门出身,护士长妻子已请假未提离婚,双方家人压力很大

祖副院长寒门出身,护士长妻子已请假未提离婚,双方家人压力很大

影像温度
2025-11-09 21:45:20
中美俄每月养老金对比:美国一个月1.3万,俄罗斯1692元,中国呢

中美俄每月养老金对比:美国一个月1.3万,俄罗斯1692元,中国呢

阿伧说事
2025-11-11 10:40:35
中国商业火箭再次失手,和SpaceX差距在哪?

中国商业火箭再次失手,和SpaceX差距在哪?

财视传播
2025-11-11 17:07:39
涉案资金超2.7万亿元,泰国将向中国引渡跨境网赌头目

涉案资金超2.7万亿元,泰国将向中国引渡跨境网赌头目

环球网资讯
2025-11-12 06:56:03
敢踏雷区破迷局,谁料丽文非等闲!从秋祭风波看郑丽文的政治智慧

敢踏雷区破迷局,谁料丽文非等闲!从秋祭风波看郑丽文的政治智慧

坠入二次元的海洋
2025-11-12 13:47:00
全运会游泳第3日预赛:于子迪200自晋级后退赛,张展硕游刃有余

全运会游泳第3日预赛:于子迪200自晋级后退赛,张展硕游刃有余

烧体坛
2025-11-12 10:58:06
在PPT里加了4个丑形状,领导傻眼了,追着我夸!

在PPT里加了4个丑形状,领导傻眼了,追着我夸!

秋叶PPT
2025-11-03 08:21:22
直接炸锅!民进党大佬王世坚说要到大陆来“看一看”,大家欢迎吗

直接炸锅!民进党大佬王世坚说要到大陆来“看一看”,大家欢迎吗

我心纵横天地间
2025-11-12 12:46:50
小米汽车4万+交付量引争议!网友锐评:左手倒右手?信你个鬼

小米汽车4万+交付量引争议!网友锐评:左手倒右手?信你个鬼

吃瓜局
2025-11-11 16:25:43
鹿晗患病质疑升级!邓超关晓彤举止太反常,多次被拍悄悄去医院

鹿晗患病质疑升级!邓超关晓彤举止太反常,多次被拍悄悄去医院

老吴教育课堂
2025-11-12 10:06:12
全运乒乓:首个头号种子被淘汰!无缘获得奖牌 刘诗雯迎恶战 陈幸同搭档提前躺地庆祝

全运乒乓:首个头号种子被淘汰!无缘获得奖牌 刘诗雯迎恶战 陈幸同搭档提前躺地庆祝

好乒乓
2025-11-12 10:25:06
《四喜》直到被丈夫卷走积蓄,许知夏才知,母亲认回妹妹的真相

《四喜》直到被丈夫卷走积蓄,许知夏才知,母亲认回妹妹的真相

观察鉴娱
2025-11-12 08:55:20
两岸同谋统一,美国开始介入了,郑丽文赶赴大陆前,先被美方约谈

两岸同谋统一,美国开始介入了,郑丽文赶赴大陆前,先被美方约谈

荐史
2025-11-12 13:18:13
中考招生迎大变革!优质高中80%名额指标到校,2026年起按初中人数分配

中考招生迎大变革!优质高中80%名额指标到校,2026年起按初中人数分配

解说阿洎
2025-11-12 10:43:47
体坛:刘若钒曾想回成都却被徐正源拒绝,后获里卡多、穆斯卡特赏识

体坛:刘若钒曾想回成都却被徐正源拒绝,后获里卡多、穆斯卡特赏识

懂球帝
2025-11-12 10:26:08
12月1日禁售旧电动车,新国标不能带娃遭质疑:懂老百姓的难吗?

12月1日禁售旧电动车,新国标不能带娃遭质疑:懂老百姓的难吗?

你食不食油饼
2025-11-11 07:30:03
9分钟爆砍28分,命中率100%,中国篮球迎来超级新星,她太强了

9分钟爆砍28分,命中率100%,中国篮球迎来超级新星,她太强了

篮球专区
2025-11-11 22:33:00
细思极恐!祖院长和曾主任背后有一位没露面的“高手”!

细思极恐!祖院长和曾主任背后有一位没露面的“高手”!

甜柠聊史
2025-11-12 08:35:01
奉陪到底!联合国爆发激战,中方开始算总账,第一个就要收拾美国

奉陪到底!联合国爆发激战,中方开始算总账,第一个就要收拾美国

坠入二次元的海洋
2025-11-12 11:40:10
2025-11-12 15:00:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
382219文章数 757736关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

美主持人污蔑中国人窃取知识产权 遭特朗普反驳

头条要闻

美主持人污蔑中国人窃取知识产权 遭特朗普反驳

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

能得到央视的肯定 长安马自达EZ-60可不简单

态度原创

教育
时尚
手机
数码
本地

教育要闻

宝贝,在学校得罪谁也别得罪这2个人,尤其是第二个

“廓形穿衣法”太火了!掌握这5个法则让你美一整个冬天

手机要闻

央视聚焦双十一,财经频道分析小米17,iPhone 17成背景板

数码要闻

三星电视上线新版Vision AI助手 可回答问题并翻译对话

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

无障碍浏览 进入关怀版