网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1幻觉率高达14.3%,聪明的AI为何总爱胡说八道?

0
分享至

转自:上观新闻

最近一段时间,“DeepSeek化身中医开药方”“DeepSeek搞钱指南”等词条频频上热搜,引发医疗、金融等行业从业者的关注。“一路开挂”的DeepSeek真的这么神吗?

事实上,国内不少行业正在加强生成式AI以及大模型应用的监管,尤其是推理模型成为新趋势后,AI幻觉风险反而变高了,测试结果显示,DeepSeek-R1推理模型幻觉率远高于大语言模型V3。业内人士表示,现有的技术条件无法彻底消除AI幻觉,“AI生成初稿+人类核查”或将成为未来的主流选择。

DeepSeek冲击力暂时有限

前几天,社交媒体上有医学博主自曝称,有病人咨询了DeepSeek后质疑医生的诊疗方案,经过医生自查后发现,原来的治疗方案已经更新,DeepSeek的诊断结果不仅没错,还是最新版本的。

除了医学之外,DeepSeek还给金融业带来了不小冲击。记者在各大社交平台上搜索“DeepSeek”词条时,“DeepSeek搞钱指南”“一周多赚一年工资”“DeepSeek教你财富自由”等热门词条下,不少博主都在分享利用DeepSeek投资理财的经验,而评论区中清一色全是索要提示词的留言。

随着DeepSeek不断接入各大平台,“AI问诊”“AI理财”等应用层出不穷,但理想远不如现实“丰满”,用户需求激增的同时,监管也在逐渐收紧口子,尤其是医疗、金融等强监管行业。

比如湖南医保局明确互联网医院严禁使用人工智能自动生成处方,国家卫健委也对人工智能问诊作出限制规定,将处方权限制在医师手中。

金融行业亦是如此。记者从多家证券机构获悉,虽然一些金融大模型早已深入行业操作流程中,但针对敏感文件报送、高频交易、衍生品定价等低容错的环节,仍依赖人工审核。

“大模型能够提高效率,但AI幻觉问题仍未解决。越是高风险行业,对AI幻觉的容忍度越低。毕竟AI一旦胡说八道,带来都是真金白银的损失。”上述证券机构从业者表示。

推理能力与幻觉风险正相关

“大模型的推理能力非常强,方向也很宽泛,可能在‘思考过程’中就存在两个相冲突的逻辑,但在最终的总结生成时,有可能会把两个相悖的答案‘捏’在一起。”信美人寿相互保险社(简称“信美”)数据信息中心负责人童国红告诉记者,大模型“一本正经地胡说八道”一方面是推理过程中出现幻觉,另一方面是训练数据的缺失。大模型的“认知能力”完全依赖于训练数据,如果提供的训练数据遗漏了和业务相关的重要信息,或是存在错误信息,大模型生成的内容也会出错。

国内某头部AI企业技术人士还表示,幻觉是大模型技术原理的固有缺陷,大模型基于概率预测生成文本,当信息缺失时,会通过“合理推测”填补空白,特别是一些推理模型在回答开放性问题时,常虚构细节以保持逻辑连贯。另外,庞大参数导致模型记忆训练数据中会出现“噪声”,面对新问题时难以准确泛化,易产生上下文矛盾或事实错误。

AI大模型在行业落地时,小小的幻觉会导致“差之毫厘谬以千里”的后果。

童国红举了个例子:用户要求比较两款保险产品的现金价值增长情况,通过调用保险专业工具,正确的计算结果应该是——在第30个保单年度时,A款产品的现金价值为1836360元,B款产品的现金价值为2145000元,A比B低14.39%。

而在同样的指令下,大模型的输出结果却截然相反——在第30个保单年度时,B款产品的现金价值为2145000元,较A款产品的现金价值(1836360元)高出约14.39%。

不难发现,尽管产品的现金价值是准确的,但当比较顺序调换后,参考物由B变为A,计算出的比例应相应变为“B比A高16.81%”,而大模型并未识别出这个逻辑,这种错误就是AI幻觉。

信美Chat-Trust3.0的演示界面。

随着DeepSeek等推理模型的增强,AI思考能力更强了,能否缓解AI幻觉的概率?面对记者提问,上述技术人员仍给出了否定的答案。

“推理模型通过强化逻辑框架提升了复杂问题解决能力,但幻觉问题并未缓解,甚至在处理开放性问题时,会强行构建逻辑链,导致虚构事实。”他援引一项模型幻觉测试结果称,谷歌Gemini 2.0 Flash的幻觉率仅0.7%,而DeepSeek R1高达14.3%,表明推理能力与幻觉风险呈正相关,目前技术仅能通过优化训练策略(如混合训练)局部改善,无法彻底解决。

测试显示DeepSeek-R1幻觉率高达14.3%。

AI是效率工具而非终端决策

虽然短期内无法杜绝AI幻觉,但不少行业在落地应用时正探索出一些应对策略,要么减少AI幻觉的概率,要么将AI幻觉关进“笼子”。

据介绍,优化提问方式、多模型交叉验证、事实核查工具和人工干预等,都是业内主流的应对策略。目前,检索增强生成(RAG)成为大模型行业的共识,比如百度的检索增强的文生图技术(iRAG),可以解决大模型在图片生成上的幻觉问题。另外,未来可能将形成“AI生成初稿+人类核查”的标配流程,将AI作为效率工具而非决策终端。

以信美发布的大模型保险垂直应用“信美Chat-Trust3.0”为例,通过多重机制减少AI幻觉带来的负面影响。首先,在输出端多加一步,使用另外一个模型去校准答案,也称为“反思机制”。通过引入另一个模型,对本次得出的结论进行“二次检验”。比如评估生成内容是否有悖于常识或者已知信息、逻辑是否清晰合理,同时检验输出内容是否涵盖了任务的全部要求等。

在上述对比保单现金价值的案例中,信美就是通过引入另外一个模型纠正了计算结果。“毕竟,检查答案还是要比解一道数学题本身,要容易很多的。”童国红说。

同时,给AI“喂料”更加精准、合适的数据。在实际应用中,除了行业内使用的通用大模型基座外,不同企业会有不同的知识库,包括产品设计、风险控制措施、业务模式、制度规范、内部管理流程等。如何在使用通用大模型的基础上,在垂类大模型的应用竞争中脱颖而出,关键就在于根据自身业务特色,给出最关键和精准的数据。

童国红人表示,目前“信美Chat-Trust3.0”正在内测核保辅助支持功能,正确率在70%—80%,距离90%的交付要求,还有一小段距离。“乐观估计,今年年内可以推向外部。想要大范围推广一个大模型应用,必须要保证,机器生成的结果比人的正确率高。AI幻觉是持续要解决的问题。”

原标题:DeepSeek-R1幻觉率高达14.3%,聪明的AI为何总爱胡说八道?

栏目主编:李晔 题图来源:新华社

来源:作者:解放日报 查睿 刘惠宇

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
雷军宣布:小米车主安全行驶里程达十万公里,可获赠实体限量徽章、精美虚拟勋章,一键生成专属行车故事

雷军宣布:小米车主安全行驶里程达十万公里,可获赠实体限量徽章、精美虚拟勋章,一键生成专属行车故事

鲁中晨报
2026-04-18 16:20:17
雷霆大胜太阳总分1-0:亚历山大25分17罚 布克23分杰伦22+7+6

雷霆大胜太阳总分1-0:亚历山大25分17罚 布克23分杰伦22+7+6

醉卧浮生
2026-04-20 06:07:58
重磅!34岁国乒世界冠军换籍复出 代表哈萨克斯坦参赛 效仿朱雨玲

重磅!34岁国乒世界冠军换籍复出 代表哈萨克斯坦参赛 效仿朱雨玲

念洲
2026-04-20 11:51:43
2天就猝死!医生提示:冠心病患者若常出现4个异常,立即就医

2天就猝死!医生提示:冠心病患者若常出现4个异常,立即就医

牛锅巴小钒
2026-04-20 19:05:26
释永信“开光”真相大白,过程不堪入目,易中天也被牵连

释永信“开光”真相大白,过程不堪入目,易中天也被牵连

往史过眼云烟
2026-03-24 17:05:24
“3岁男童遭生父女友虐待致死案”,明日宣判

“3岁男童遭生父女友虐待致死案”,明日宣判

南方都市报
2026-04-20 17:00:24
金像奖上最耀眼的5位明星,个个拿奖,实至名归,皆被观众喜爱

金像奖上最耀眼的5位明星,个个拿奖,实至名归,皆被观众喜爱

叨唠
2026-04-20 03:23:05
女儿美国读高中花掉110万,单亲妈妈向社会求助:求捐200万读大学

女儿美国读高中花掉110万,单亲妈妈向社会求助:求捐200万读大学

谈史论天地
2026-04-17 16:50:03
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
伊朗宣布关闭霍尔木兹海峡

伊朗宣布关闭霍尔木兹海峡

财联社
2026-04-19 02:25:05
马筱梅怒与小杨阿姨切割,下通牒后,阿姨 3 句话慌了神

马筱梅怒与小杨阿姨切割,下通牒后,阿姨 3 句话慌了神

橙星文娱
2026-04-20 16:59:16
仅播5集,热度破22000,追完后我想说:能和《漫长的季节》媲美了

仅播5集,热度破22000,追完后我想说:能和《漫长的季节》媲美了

星宿影视鸭
2026-04-20 10:58:00
通报!特大串通投标案82人落网,19人被判刑

通报!特大串通投标案82人落网,19人被判刑

新浪财经
2026-04-20 10:52:23
林丹亲自回应12岁烧伤男孩!为其免费提供治疗,相约赛场见面

林丹亲自回应12岁烧伤男孩!为其免费提供治疗,相约赛场见面

阅微札记
2026-04-20 14:48:14
情侣利用店铺展示漏洞偷走上千个玩偶,涉案近3万元被刑拘

情侣利用店铺展示漏洞偷走上千个玩偶,涉案近3万元被刑拘

环球网资讯
2026-04-20 14:55:12
我52岁女干部,绝经3年和65岁老干部出差三亚才明白什么是真女人

我52岁女干部,绝经3年和65岁老干部出差三亚才明白什么是真女人

吃货的分享
2026-04-20 18:55:57
1955年杨国夫估计自己能评少将,结果公布后发现,他竟评上了中将

1955年杨国夫估计自己能评少将,结果公布后发现,他竟评上了中将

野史日记
2026-04-19 21:35:03
马斯克再放狠话:能造出超级高铁,比中国任何公共交通系统都要好

马斯克再放狠话:能造出超级高铁,比中国任何公共交通系统都要好

通文知史
2026-04-19 19:00:08
大幅降薪?波尔津吉斯未承诺留在勇士效力:今夏将成完全自由球员

大幅降薪?波尔津吉斯未承诺留在勇士效力:今夏将成完全自由球员

罗说NBA
2026-04-20 04:46:16
前六轮下来!申花是扣分球队里面拿分最多 如果不扣分就是老二了

前六轮下来!申花是扣分球队里面拿分最多 如果不扣分就是老二了

80后体育大蜀黍
2026-04-20 20:53:40
2026-04-20 22:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2933299文章数 6810关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

保价2000元机盖运输中损坏 德邦仅愿以1300元回购

头条要闻

保价2000元机盖运输中损坏 德邦仅愿以1300元回购

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

本地
数码
艺术
手机
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

惠普推出2026款HyperX暗影精灵MAX游戏本

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

手机要闻

OPPO Find X9s Pro/X9 Ultra爆料汇总,新机明天见

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版