网易首页 > 网易号 > 正文 申请入驻

AI胡说八道这事,终于有人管了?

0
分享至

来源:市场资讯

(来源:机器之心)

想象一下,如果 ChatGPT 等 AI 大模型在生成的时候,能把自己不确定的地方都标记出来,你会不会对它们生成的答案放心很多?


上周末,OpenAI 发的一篇论文引爆了社区。这篇论文系统性地揭示了幻觉的根源,指出问题出在奖励上 —— 标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。可能就是因为意识到了这个问题,并找出了针对性的解法,GPT-5 的幻觉率大幅降低。

随着 AI 大模型在医疗咨询、法律建议等高风险领域的应用不断深入,幻觉问题会变得越来越棘手,因此不少研究者都在往这一方向发力。除了像 OpenAI 那样寻找幻觉原因,还有不少人在研究幻觉检测技术。然而,现有的幻觉检测技术在实际应用中面临瓶颈,通常仅适用于简短的事实性查询,或需要借助昂贵的外部资源进行验证。

针对这一挑战,来自苏黎世联邦理工学院(ETH)和 MATS 的一项新研究提出了一种低成本、可扩展的检测方法,能够实时识别长篇内容中的「幻觉 token」,并成功应用于高达 700 亿(70B)参数的大型模型。



  • 论文标题:Real-Time Detection of Hallucinated Entities in Long-Form Generation

  • 论文地址:https://arxiv.org/abs/2509.03531

  • 代码地址:https://github.com/obalcells/hallucination_probes

  • 项目地址:https://www.hallucination-probes.com/

  • 代码和数据集:https://github.com/obalcells/hallucination_probes

该方法的核心是精准识别实体级幻觉,例如捏造的人名、日期或引文,而非判断整个陈述的真伪。这种策略使其能够自然地映射到 token 级别的标签,从而实现实时流式检测。


通过 token 级探针检测幻觉实体。在长文本生成场景(Long Fact、HealthBench)中,线性探针的性能远超基于不确定性的基线方法,而 LoRA 探针则进一步提升了性能。该探针同样在短文本场景(TriviaQA)以及分布外推理领域(MATH)中表现出色。图中展示的是 Llama-3.3-70B 模型的结果。

为实现这一目标,研究人员开发了一种高效的标注流程。他们利用网络搜索来验证模型生成内容中的实体,并为每一个 token 标注是否有事实依据。基于这个专门构建的数据集,研究人员通过线性探针(linear probes)等简洁高效的技术,成功训练出精准的幻觉分类器。



在对四种主流模型家族的评估中,该分类器的表现全面超越了现有基准方法。尤其是在处理长篇回复时,其效果远胜于语义熵(semantic entropy)等计算成本更高的方法。例如,在 Llama-3.3-70B 模型上,该方法的 AUC(分类器性能指标)达到了 0.90,而基准方法仅为 0.71。此外,它在短式问答场景中也展现出优越的性能。

值得注意的是,尽管该分类器仅使用实体级标签进行训练,它却能有效识别数学推理任务中的错误答案。这一发现表明,该方法具备了超越实体检测的泛化能力,能够识别更广泛的逻辑错误。


虽然原始数据集的标注成本高昂,但研究发现,基于一个模型标注的数据可被复用于训练针对其他模型的有效分类器。因此,研究团队已公开发布此数据集,以推动社区的后续研究。

方法概览

用于 token 级幻觉检测的数据集构建

为了训练能够在 token 级别检测幻觉的分类器,研究者需要一个对长文本中的幻觉内容有精确标注的数据集。这个过程分为两步:(1) 生成包含事实与幻觉内容的混合文本 ;(2) 对这些文本进行准确的 token 级标注,以识别哪些 token 属于被捏造的实体。下图展示了该标注流程。


token 级标注流水线。

  • 数据生成

研究者在 LongFact 数据集的基础上,创建了一个规模扩大 10 倍、领域更多样化的提示集 LongFact++。

LongFact++ 包含主题查询、名人传记、引文生成和法律案件等四类提示,旨在诱导大语言模型生成富含实体的长文本,作为后续标注的原材料。

  • token 级标注

与传统方法将文本分解为 atomic claims 不同,该研究专注于标注实体(如人名、日期、引文等),因为实体有明确的 token 边界,易于进行流式检测。他们使用带有网络搜索功能的 Claude 4 Sonnet 模型来自动完成标注流程。

该系统会识别文本中的实体,通过网络搜索验证其真实性,并将其标记为「Supported」(有证据支持)、「Not Supported」(被证实是捏造的)或「Insufficient Information」(信息不足)。

  • 标签质量

为验证标注质量,研究者进行了两项检查。首先,人类标注员的标注结果与大模型自动标注结果的一致性为 84%。其次,在一个包含已知错误(人工注入)的受控数据集中,该标注流程的召回率为 80.6%,假阳性率为 15.8% 。

训练 token 级探针

探针是一个附加在语言模型上的幻觉检测器,它由一个线性的「价值头」和可选的 LoRA 适配器组成。价值头读取模型中间层 ℓ 的隐藏状态

,并输出一个 token 级的幻觉概率 :


训练的总损失函数

,也包括一个用于约束模型行为变化的正则化项

是一个组合,它既包括用于训练幻觉分类器的探针损失

为了解决幻觉信号通常集中在少数几个关键 token 上的问题,研究者设计了一种结合了逐词损失和跨度最大值损失 的混合损失函数 。其公式如下:


这个设计的巧妙之处在于:对于一个被标记为幻觉的文本片段,只要其中至少有一个 token 的幻觉分数很高,损失函数就会给予奖励,从而让探针学会更精确地聚焦于关键错误信号 。

实验结果

在长文本设置中(LongFact 和 HealthBench),token 级探针在两个主要模型上的表现都显著优于基线方法(表 1)。简单的线性探针始终实现了 0.85 以上的 AUC 值,而 LoRA 探针进一步提升了性能,将 AUC 推高到 0.89 以上。


相比之下,基于不确定性的基线方法表现均不佳,AUC 值均未超过 0.76。在短文本设置中(TriviaQA),基线方法比长文本设置中表现更强,但探针仍然领先。LoRA 探针始终实现了超过 0.96 的 AUC 值,线性探针也表现良好。值得注意的是,本文提出的探针在 MATH 数据集上也取得了强劲的结果。这种分布外的性能表明,本文提出的方法捕获了正确性的信号,这些信号的泛化性超出了其最初针对的虚构实体。

作者在三个次要模型上复制了长文本结果,每个模型仅使用 2000 个其自身长文本生成的注释样本进行训练。结果是相似的:LoRA 探针再次优于线性探针,在 LongFact 生成上的 AUC 值在 0.87-0.90 之间。次要模型的完整结果显示在表 5 中。


虽然 LoRA 探针的 AUC 值在多个设置中接近或超过 0.9,但长文本上的 R@0.1 最高约为 0.7,即在 10% 假阳性率下,检测器能够识别出大约三分之二的幻觉实体。这些结果既突出了相对于标准基于不确定性基线方法的实际收益,也表明在这类方法能够广泛应用于高风险场景之前,仍有进一步改进的空间。

更多细节请参见原论文。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闷声发大财!中国手机界迎来新王者,连续三季度销冠,反超华为?

闷声发大财!中国手机界迎来新王者,连续三季度销冠,反超华为?

毒sir财经
2025-11-19 21:12:02
独揽5金2银惊艳全运赛场!中国又一天才美少女横空出世,年仅15岁

独揽5金2银惊艳全运赛场!中国又一天才美少女横空出世,年仅15岁

妙知
2025-11-19 17:57:38
外交部答澎湃:反对外部势力以任何借口干涉委内瑞拉内政

外交部答澎湃:反对外部势力以任何借口干涉委内瑞拉内政

澎湃新闻
2025-11-19 15:42:26
41款进口药退出中国

41款进口药退出中国

临药网
2025-11-19 16:10:30
不到24小时!人民日报3次点名宋佳,释放2大信号,内娱的风向变了

不到24小时!人民日报3次点名宋佳,释放2大信号,内娱的风向变了

翰林涛涛
2025-11-19 21:13:46
警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

警惕!这种“毒碗”已经上黑榜了,检查一下,家里有的赶紧扔了吧

削桐作琴
2025-10-24 15:45:22
全运会金牌榜:山东队以43金领先,其他队伍表现各异

全运会金牌榜:山东队以43金领先,其他队伍表现各异

阿黼体育评论
2025-11-19 01:02:54
印军官:当中国武力解放台湾,印度不仅要夺取西藏,还要吞噬新疆

印军官:当中国武力解放台湾,印度不仅要夺取西藏,还要吞噬新疆

近史博览
2025-09-22 15:47:35
琉球不属日本!50年代琉球老照片:街头到处是中文,琉球女孩漂亮

琉球不属日本!50年代琉球老照片:街头到处是中文,琉球女孩漂亮

生活新鲜市
2025-11-19 00:35:05
一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

扶苏聊历史
2025-11-19 13:33:45
中国撤侨从不收费,唯独这次破例,网友:活该,就应该多收一点!

中国撤侨从不收费,唯独这次破例,网友:活该,就应该多收一点!

小lu侃侃而谈
2025-09-21 19:34:17
广东U22男篮34分大胜上海,闯入决赛,徐昕11+5+3+2李奕臻18+5

广东U22男篮34分大胜上海,闯入决赛,徐昕11+5+3+2李奕臻18+5

中国篮坛快讯
2025-11-19 18:45:45
黄山市一化工园区工厂失火,现场浓烟滚滚并伴随有爆炸声,当地紧急救援

黄山市一化工园区工厂失火,现场浓烟滚滚并伴随有爆炸声,当地紧急救援

极目新闻
2025-11-19 17:58:04
贝森特突然通知中国,感恩节前不签稀土协议,美国将对华发起报复

贝森特突然通知中国,感恩节前不签稀土协议,美国将对华发起报复

通文知史
2025-11-18 20:00:03
封杀成功了,赖清德被催下台,国民党投关键票,傅崐萁率党团反攻

封杀成功了,赖清德被催下台,国民党投关键票,傅崐萁率党团反攻

文史旺旺旺
2025-11-18 20:18:06
每体:巴尔德吉在瑞典队表现出色,渴望在巴萨获得更多出场

每体:巴尔德吉在瑞典队表现出色,渴望在巴萨获得更多出场

懂球帝
2025-11-19 21:25:05
全运会羽球第5日:韩悦力克高昉洁斩获铜牌,男单黑马击败王正行

全运会羽球第5日:韩悦力克高昉洁斩获铜牌,男单黑马击败王正行

钉钉陌上花开
2025-11-19 19:36:25
男子暴打母亲后续!亲戚为男子发声,动手事出有因,老人拿钱捞人

男子暴打母亲后续!亲戚为男子发声,动手事出有因,老人拿钱捞人

刘森森
2025-11-18 16:14:44
美女美图7139期

美女美图7139期

手工制作阿歼
2025-11-14 08:13:28
她是陈思诚女友,条件不输佟丽娅小他21岁心胸大,为何一直捧不红

她是陈思诚女友,条件不输佟丽娅小他21岁心胸大,为何一直捧不红

凡知
2025-11-19 12:09:11
2025-11-19 22:07:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1433292文章数 4572关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

公开爱泼斯坦案文件只等特朗普签字 重量级名字或出现

头条要闻

公开爱泼斯坦案文件只等特朗普签字 重量级名字或出现

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

游戏
时尚
艺术
亲子
手机

Uzi再度复出加盟iG组建至臻全神班?辟谣:单纯排位瘾来了

毛衣+阔腿裤、羽绒服+裙子,这5组搭配照着穿就很时髦!

艺术要闻

启功:我是画家,但书名超过了画名

亲子要闻

孩子患病后,父母要免于恐惧、降低焦虑,掌握真正的康复方法

手机要闻

屏幕大就是好:荣耀手表X5官宣11月24日发布

无障碍浏览 进入关怀版