网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1幻觉率高达14.3%,聪明的AI为何总爱胡说八道?

0
分享至

最近一段时间,“DeepSeek化身中医开药方”“DeepSeek搞钱指南”等词条频频上热搜,引发医疗、金融等行业从业者的关注。“一路开挂”的DeepSeek真的这么神吗?

事实上,国内不少行业正在加强生成式AI以及大模型应用的监管,尤其是推理模型成为新趋势后,AI幻觉风险反而变高了,测试结果显示,DeepSeek-R1推理模型幻觉率远高于大语言模型V3。业内人士表示,现有的技术条件无法彻底消除AI幻觉,“AI生成初稿+人类核查”或将成为未来的主流选择。

DeepSeek冲击力暂时有限

前几天,社交媒体上有医学博主自曝称,有病人咨询了DeepSeek后质疑医生的诊疗方案,经过医生自查后发现,原来的治疗方案已经更新,DeepSeek的诊断结果不仅没错,还是最新版本的。

除了医学之外,DeepSeek还给金融业带来了不小冲击。记者在各大社交平台上搜索“DeepSeek”词条时,“DeepSeek搞钱指南”“一周多赚一年工资”“DeepSeek教你财富自由”等热门词条下,不少博主都在分享利用DeepSeek投资理财的经验,而评论区中清一色全是索要提示词的留言。

随着DeepSeek不断接入各大平台,“AI问诊”“AI理财”等应用层出不穷,但理想远不如现实“丰满”,用户需求激增的同时,监管也在逐渐收紧口子,尤其是医疗、金融等强监管行业。

比如湖南医保局明确互联网医院严禁使用人工智能自动生成处方,国家卫健委也对人工智能问诊作出限制规定,将处方权限制在医师手中。

金融行业亦是如此。记者从多家证券机构获悉,虽然一些金融大模型早已深入行业操作流程中,但针对敏感文件报送、高频交易、衍生品定价等低容错的环节,仍依赖人工审核。

“大模型能够提高效率,但AI幻觉问题仍未解决。越是高风险行业,对AI幻觉的容忍度越低。毕竟AI一旦胡说八道,带来都是真金白银的损失。”上述证券机构从业者表示。

推理能力与幻觉风险正相关

“大模型的推理能力非常强,方向也很宽泛,可能在‘思考过程’中就存在两个相冲突的逻辑,但在最终的总结生成时,有可能会把两个相悖的答案‘捏’在一起。”信美人寿相互保险社(简称“信美”)数据信息中心负责人童国红告诉记者,大模型“一本正经地胡说八道”一方面是推理过程中出现幻觉,另一方面是训练数据的缺失。大模型的“认知能力”完全依赖于训练数据,如果提供的训练数据遗漏了和业务相关的重要信息,或是存在错误信息,大模型生成的内容也会出错。

国内某头部AI企业技术人士还表示,幻觉是大模型技术原理的固有缺陷,大模型基于概率预测生成文本,当信息缺失时,会通过“合理推测”填补空白,特别是一些推理模型在回答开放性问题时,常虚构细节以保持逻辑连贯。另外,庞大参数导致模型记忆训练数据中会出现“噪声”,面对新问题时难以准确泛化,易产生上下文矛盾或事实错误。

AI大模型在行业落地时,小小的幻觉会导致“差之毫厘谬以千里”的后果。

童国红举了个例子:用户要求比较两款保险产品的现金价值增长情况,通过调用保险专业工具,正确的计算结果应该是——在第30个保单年度时,A款产品的现金价值为1836360元,B款产品的现金价值为2145000元,A比B低14.39%。

而在同样的指令下,大模型的输出结果却截然相反——在第30个保单年度时,B款产品的现金价值为2145000元,较A款产品的现金价值(1836360元)高出约14.39%。

不难发现,尽管产品的现金价值是准确的,但当比较顺序调换后,参考物由B变为A,计算出的比例应相应变为“B比A高16.81%”,而大模型并未识别出这个逻辑,这种错误就是AI幻觉。

信美Chat-Trust3.0的演示界面。

随着DeepSeek等推理模型的增强,AI思考能力更强了,能否缓解AI幻觉的概率?面对记者提问,上述技术人员仍给出了否定的答案。

“推理模型通过强化逻辑框架提升了复杂问题解决能力,但幻觉问题并未缓解,甚至在处理开放性问题时,会强行构建逻辑链,导致虚构事实。”他援引一项模型幻觉测试结果称,谷歌Gemini 2.0 Flash的幻觉率仅0.7%,而DeepSeek R1高达14.3%,表明推理能力与幻觉风险呈正相关,目前技术仅能通过优化训练策略(如混合训练)局部改善,无法彻底解决。

测试显示DeepSeek-R1幻觉率高达14.3%。

AI是效率工具而非终端决策

虽然短期内无法杜绝AI幻觉,但不少行业在落地应用时正探索出一些应对策略,要么减少AI幻觉的概率,要么将AI幻觉关进“笼子”。

据介绍,优化提问方式、多模型交叉验证、事实核查工具和人工干预等,都是业内主流的应对策略。目前,检索增强生成(RAG)成为大模型行业的共识,比如百度的检索增强的文生图技术(iRAG),可以解决大模型在图片生成上的幻觉问题。另外,未来可能将形成“AI生成初稿+人类核查”的标配流程,将AI作为效率工具而非决策终端。

以信美发布的大模型保险垂直应用“信美Chat-Trust3.0”为例,通过多重机制减少AI幻觉带来的负面影响。首先,在输出端多加一步,使用另外一个模型去校准答案,也称为“反思机制”。通过引入另一个模型,对本次得出的结论进行“二次检验”。比如评估生成内容是否有悖于常识或者已知信息、逻辑是否清晰合理,同时检验输出内容是否涵盖了任务的全部要求等。

在上述对比保单现金价值的案例中,信美就是通过引入另外一个模型纠正了计算结果。“毕竟,检查答案还是要比解一道数学题本身,要容易很多的。”童国红说。

同时,给AI“喂料”更加精准、合适的数据。在实际应用中,除了行业内使用的通用大模型基座外,不同企业会有不同的知识库,包括产品设计、风险控制措施、业务模式、制度规范、内部管理流程等。如何在使用通用大模型的基础上,在垂类大模型的应用竞争中脱颖而出,关键就在于根据自身业务特色,给出最关键和精准的数据。

童国红人表示,目前“信美Chat-Trust3.0”正在内测核保辅助支持功能,正确率在70%—80%,距离90%的交付要求,还有一小段距离。“乐观估计,今年年内可以推向外部。想要大范围推广一个大模型应用,必须要保证,机器生成的结果比人的正确率高。AI幻觉是持续要解决的问题。”

原标题:DeepSeek-R1幻觉率高达14.3%,聪明的AI为何总爱胡说八道?

栏目主编:李晔 题图来源:新华社

来源:作者:解放日报 查睿 刘惠宇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

每日经济新闻
2026-03-25 23:58:31
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
2026-03-26 14:28:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
456164文章数 760374关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
数码
教育
时尚
军事航空

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

2026年了,最好看的还是“这件针织”!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版