网易首页 > 网易号 > 正文 申请入驻

受够AI“大话精”?WAIC打响“幻觉”阻击战|科技观察

0
分享至

封面新闻记者 边雪 上海采访报道

“DeepSeek向王一博道歉”的消息冲上热搜后,AI一本正经地胡说八道(AI幻觉)也引发业内热议。而如何降低AI幻觉,提升模型输出内容的准确率,也成为2025世界人工智能大会(WAIC)关注的焦点。

从贝叶斯统计到深度学习,不确定性量化始终是机器学习领域的核心挑战。传统机器学习模型通过概率分布、置信区间等方法量化预测不确定性,但在大模型时代,亟需量化大模型输出的置信度,避免过度自信的回答产生严重后果。

“所谓幻觉,即在缺乏事实支撑或逻辑校验的情况下,生成出语义连贯但事实错误或虚构的信息。”中国工程院院士、人机混合增强智能全国重点实验室主任郑南宁告诉封面新闻记者,这种现象不仅体现在细节性误报,更可能在多轮对话、复杂任务规划中造成系统性误导。

“幻觉”成为大模型发展关键瓶颈

“在模型能力不断扩展同时,其‘幻觉’现象已成为制约其可靠性与实用性的关键问题之一。在郑南宁看来,幻觉的深层根源在于当前大模型仍以统计相关性驱动语言生成,缺乏对世界知识的结构化表征与因果推理能力,无法对生成内容进行验证、纠错或自我否定,难以实现真正的认知跃迁。

这一观点在2025WAIC会上,获得多位重量级学者响应。封面新闻记者注意到,在多场分论坛中,“幻觉治理”成为出现频率最高的技术关键词之一

“在人工智能日益渗透人类生活的今天,‘自知能力’承载着比技术指标更为深层的价值内涵,它关乎智能系统的自我认知、决策透明,以及人机协作的和谐共生。”西安电子科技大学徐偲副教授告诉封面新闻记者,随着大模型在自动驾驶、医疗诊断等零容错率场景的应用,不确定性量化已从学术问题转变为安全底线。

推理模型幻觉率高达22.95%

行业面临的挑战在第三方测评数据中得到量化印证。中文通用大模型测评基准SuperCLUE最新数据显示,DeepSeek-R1模型幻觉率高达21.02%,远高于豆包大模型4.11%的数值,也超过DeepSeek另一款大语言模型V3的13.83%。

测评揭示了一个反直觉现象:推理能力越强,幻觉问题越严重。数据显示,推理模型平均幻觉率达22.95%,而非推理模型平均为13.52%,打破了“模型越智能越可靠”的普遍假设。

这种认知同源性使问题复杂化。上海交通大学张拳石教授在“可解释AI”分论坛上指出:“大模型的‘聪明’往往是事后拟合的幻象,缺乏可解释性和可验证性。若要在关键场景落地,必须实现可解释、可验证、透明可信的技术体系。”

过高的幻觉率,直接影响用户体验。第三方统计显示,相较于年初,DeepSeek的月均下载量与使用率已大幅下降。一位金融科技公司的CTO向封面新闻记者透露:“我们在风控系统中撤回了AI模块,因为发现它会捏造不存在的监管条款,风险太高。”

行业构建“防幻觉”工程体系

面对技术挑战,产业界在WAIC现场展示了系统性解决方案。阶跃星辰推出的“深入核查”功能直击幻觉痛点,通过四大核心能力构建防御体系:信息获取引擎、交叉信源核查、信源权威性评估和提供引用来源。

“我们不输出‘事实’,而是输出证据。”阶跃AI产品负责人向封面新闻记者介绍,该功能已获取2000多个优质信源,文献库超1000万篇,为用户提供“二次核查”的依据。

而在专业领域,AI幻觉产生的问题并非无解。在达观数据展台,首款深度融合 Agent 能力的企业级知识库产品,为金融、制造、能源、政务等多行业的知识管理升级开辟全新路径。达观数据工作人员告诉封面新闻记者,“以‘知识库+Agent’的创新组合,为企业知识资产的价值释放提供了新范式,其中审核Agent可以化身‘智能参谋’,辅助业务审核流程,自动识别逻辑漏洞、查缺补漏,大幅提升合规性与准确性。”

讯飞星火X1升级版则从模型架构层面突破。其采用多路径采样验证及事实性约束强化学习技术,在慢思考场景下实现与标准答案的深度强对齐。官方数据显示,新版本在改写润色、总结摘要等场景中,幻觉率降低45%至50%。

诺贝尔奖得主杰弗里·辛顿的主论坛演讲为AI幻觉问题提供了颠覆性视角。他指出:“人类理解语言的方式与大语言模型理解语言的方式几乎一样,人类有可能就是大语言模型,人类也会和大语言模型一样产生幻觉。”

AI幻觉治理路径 从技术优化到全球协作

面对AI幻觉的多维度挑战,WAIC2025勾勒出渐进式治理路径。郑南宁院士强调,智能范式的跃迁需要重塑社会运行结构,意图智能的崛起与认知转型将推动更深层的科技革命。

合合信息数据事业部副总经理沈东辉从商业落地角度提出解决方案:“厂商要保证数据的可信、可靠与准确,同时确保大模型生成的过程可解释、可控制,这样才能保证生成的结论可用、有价值且可信。”

诺贝尔奖得主杰弗里·辛顿提出了更为宏大的治理框架。他呼吁建立由各国人工智能安全研究所与国内研究网络组成的国际社群:“我们没有办法消除AI,即使一个国家消除了AI,别的国家也不会这么做。必须找到办法训练AI,让它们不要消灭人类。”

这一观点,也与本次会议重磅发布的《WAIC2025全球AI治理上海倡议》形成呼应:跨国协作机制正在成为应对AI安全挑战的基础设施。

彻底消除AI幻觉,仍是遥不可及的目标。但当意图驱动智能逐步取代模型驱动范式,人类将迎来真正的认知跃迁。期待那时,AI不再是不懂装懂的“大话精”,而是值得信赖的认知伙伴。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

尴尬!王石公开脱衣秀身材“翻车”,网友:像是一副被榨干的躯体

火山詩话
2026-05-08 21:39:02
伊朗宣布:没收262处“叛国者”房产!霍梅尼之孙:最高领袖正全面掌握国家事务;美军称继续对伊海上封锁,英国将派遣舰艇参加护航行动

伊朗宣布:没收262处“叛国者”房产!霍梅尼之孙:最高领袖正全面掌握国家事务;美军称继续对伊海上封锁,英国将派遣舰艇参加护航行动

每日经济新闻
2026-05-10 00:12:09
休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

休学门诊挤满了初三学生,北大教培人揭开真相:三条路全被堵死,他们无处可逃

三言四拍
2026-05-10 10:34:00
米哈累垮坎宁安,哈登:“啥说法?”

米哈累垮坎宁安,哈登:“啥说法?”

张佳玮写字的地方
2026-05-10 12:52:25
森林北回应与汪峰分手

森林北回应与汪峰分手

TVB的四小花
2026-05-10 15:09:29
工作日都爆满!杭州机场附近一个偏僻角落,突然热闹了起来:“特别震撼”

工作日都爆满!杭州机场附近一个偏僻角落,突然热闹了起来:“特别震撼”

都市快报橙柿互动
2026-05-10 13:18:25
成本暴降80%!几百万网约车司机要丢饭碗?出行巨头血拼千亿底盘

成本暴降80%!几百万网约车司机要丢饭碗?出行巨头血拼千亿底盘

侃故事的阿庆
2026-05-10 08:38:19
事态升级!三亚海鲜商户集体愤怒,官方协会发声,游客仍有条退路

事态升级!三亚海鲜商户集体愤怒,官方协会发声,游客仍有条退路

观察鉴娱
2026-05-10 09:44:36
“吴妈”扮演者去世

“吴妈”扮演者去世

鲁中晨报
2026-05-10 10:14:03
男子炫耀睡3女人,分别是24岁30岁46岁,2019年穿帮后3女人要整他

男子炫耀睡3女人,分别是24岁30岁46岁,2019年穿帮后3女人要整他

汉史趣闻
2026-05-09 16:39:26
东莞山姆场面混乱......

东莞山姆场面混乱......

东莞好生活
2026-05-10 11:08:40
中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

细说职场
2026-05-10 09:55:02
系统升级后,续航从500公里变300公里,快充也从40分钟拖到70分钟……最近投诉激增!揭秘新能源车“锁电”真相

系统升级后,续航从500公里变300公里,快充也从40分钟拖到70分钟……最近投诉激增!揭秘新能源车“锁电”真相

都市快报橙柿互动
2026-05-10 15:48:38
大S女儿玥儿开通账号,用烟花缅怀母亲,小S和徐妈同时关注

大S女儿玥儿开通账号,用烟花缅怀母亲,小S和徐妈同时关注

素素娱乐
2026-05-10 10:09:42
“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

“差点成恐怖片!”小伙脑子像被炸开一样,这病竟潜伏25年……平时无症状,发作可致命

环球网资讯
2026-05-10 14:53:11
宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

宝马新车提回家 引擎盖现一窝猫 4S店:检测洗车未发现 愿提供检查与关怀补偿

快科技
2026-05-09 20:16:11
连续潜航超14天 中国造的“麒麟”级潜艇有多厉害?

连续潜航超14天 中国造的“麒麟”级潜艇有多厉害?

环球网资讯
2026-05-10 13:18:11
近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

网易新闻出品
2026-05-09 18:38:13
阅兵式结束后袭击乌克兰,拒绝交换俘虏,俄罗斯拿捏泽连斯基!

阅兵式结束后袭击乌克兰,拒绝交换俘虏,俄罗斯拿捏泽连斯基!

山河路口
2026-05-10 14:01:37
李嘉诚儿子拿下世界杯转播权,全网炸锅

李嘉诚儿子拿下世界杯转播权,全网炸锅

新浪财经
2026-05-09 18:37:21
2026-05-10 17:36:50
封面新闻 incentive-icons
封面新闻
第一眼,看封面。了解权威信息,看真实新闻故事(互联网新闻信息服务许可证:51120170004)。
351058文章数 888962关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

仨儿子都不见了家长急疯 凌晨被警察找到后3人撒腿就跑

头条要闻

仨儿子都不见了家长急疯 凌晨被警察找到后3人撒腿就跑

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

本地
时尚
数码
家居
公开课

本地新闻

用苏绣的方式,打开江西婺源

今年最好看的衬衫竟然是它?太减龄了!

数码要闻

华为智慧屏S7正式开售,300Hz Super MiniLED超清护眼

家居要闻

菁英人居 全能豪宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版