网易首页 > 网易号 > 正文 申请入驻

目前,各主要大模型的幻觉率有多少?

0
分享至

以下是目前一些主要大模型的幻觉率情况:

OpenAI 系列

• GPT-4o:幻觉率较低,非幻觉率接近80%。

• o1:幻觉率约为2.4%。

• o3:幻觉率约为33%。

• o4-mini:幻觉率高达48%。

谷歌 Gemini 系列

• Gemini-2.0-Flash-001:幻觉率仅为0.7%,表现优异。

• Gemini-2.0-Pro-Exp:幻觉率为0.8%。

• Gemini-1.5-Pro-002:幻觉率为6.6%。

• Gemini-Pro:幻觉率为7.7%。

百度文心一言(ERNIE 4.0 Turbo)


幻觉率最低,非幻觉率接近83%,在事实验证和冷门知识领域表现出色。

Qwen 系列

• Qwen 2.5-Max:非幻觉率约为77%,在处理逻辑性问题时表现不错,但在事实核验方面仍有提升空间。

• Qwen2.5-7B-Instruct:幻觉率为2.8%。

• Qwen2.5-32B-Instruct:幻觉率为3.0%。

月之暗面 Kimi k1.5


非幻觉率约为60%,在对话流畅性和逻辑性上表现较佳,但在提供事实依据方面偶尔会出现幻觉现象。

其他

• DeepSeek-R1:非幻觉率约为65%,在生成回答时更注重上下文连贯性,但在某些领域深度知识上存在幻觉问题。

• Llama-2-70B-Chat-hf:幻觉率为5.9%。

• Anthropic Claude-3-opus:幻觉率为10.1%。

附录:大模型的幻觉率是如何计算的

目前,大模型的幻觉率计算方法主要有以下几种:

1、基于数据文本的评估方法

(1)精确率、召回率等统计指标:通过计算生成文本与参考文本之间信息的匹配程度来量化幻觉程度。例如,Dhingra等人提出的PARENT指标,将蕴含精确率与蕴含召回率相结合,克服了传统BLEU、ROUGE等指标与人工判断结果一致性较差的问题。

(2)仅使用源文本作为参考:这种方法在评估时不需要目标文本,更适应输出结果有多种可能性的场景。例如,Wang等人提出的PARENT-T指标,在PARENT指标基础上进行了优化,省略了关于目标文本的比较计算。

2、基于模型的评估方法

(1)信息提取模型:利用信息提取模型将生成文本和参考文本中的知识以某种方式表示出来,并进行比较验证。例如,Goodrich等人比较了两类信息提取方法:一类是两步提取法,另一类是基于Transformer架构的端到端直接提取事实元组的方法。

(2)特定模型的评估方法:通过使用两个在不同数据集上训练的模型来判断生成文本中每一个词例是否得到参考文本的支持。例如,Filippova利用条件语言模型和无条件语言模型计算单一词例的损失关系,判断该词例是否出现幻觉。

3、基于多任务应用的评估方法

(1)自监督模型:Deng等人通过引入信息对齐概念,训练自监督模型在词例维度上对幻觉进行度量,该方法在多种任务中表现出与人类判断相当的性能。

(2)多维评估器:Zhong等人提出的多维评估器UniEval,将不同维度的评估转换为布尔问答问题,在文本摘要和对话响应任务中表现更佳。

4、具体案例

(1)Vectara评测:Vectara公司通过让AI模型对831篇短文进行摘要来测试其产生幻觉的概率。所有模型都使用温度参数为0,确保输出的稳定性,并设置了答案率和平均摘要长度等指标。

(2)非幻觉率评估:非幻觉率指的是AI生成的回答中不包含幻觉的比例。评估标准包括回答是否为流畅的自然语言、是否直接回答问题、是否与正确答案一致以及是否可被正确答案支持或暗示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

百态人间
2026-02-05 15:42:49
直击冬奥|中国队获首枚奖牌,花滑无缘决赛,首金大概率会是谁?

直击冬奥|中国队获首枚奖牌,花滑无缘决赛,首金大概率会是谁?

罗掌柜体育
2026-02-08 10:05:31
88年聂卫平获得“棋圣”称号,邓小平叮嘱:我看你还是当老百姓好

88年聂卫平获得“棋圣”称号,邓小平叮嘱:我看你还是当老百姓好

元哥说历史
2026-02-08 16:30:03
上海一代表怒问:路是人民的路,凭什么乱收费?终于有人敢说了!

上海一代表怒问:路是人民的路,凭什么乱收费?终于有人敢说了!

今朝牛马
2026-02-07 22:37:00
姚晨新造型翻车,穿的像体操运动员贼显壮,她和造型师有仇吗?

姚晨新造型翻车,穿的像体操运动员贼显壮,她和造型师有仇吗?

东方不败然多多
2026-02-08 09:33:57
乌拉圭足协主席:我们有信心,中国2030年一定要进世界杯

乌拉圭足协主席:我们有信心,中国2030年一定要进世界杯

懂球帝
2026-02-07 22:25:10
DeepSeek推荐:一个家庭越来越富有的七个习惯

DeepSeek推荐:一个家庭越来越富有的七个习惯

洞见
2026-02-06 09:43:30
半年巨亏超1500亿元,全球第四大汽车巨头突然爆雷,股价暴跌超20%!电动化遭遇重大打击,CEO:不再追求激进的转型目标!将加大在美国投资

半年巨亏超1500亿元,全球第四大汽车巨头突然爆雷,股价暴跌超20%!电动化遭遇重大打击,CEO:不再追求激进的转型目标!将加大在美国投资

每日经济新闻
2026-02-07 16:37:07
杨尚昆晚年回忆道:党内那么多人,山头也多,只有毛主席能拢得住

杨尚昆晚年回忆道:党内那么多人,山头也多,只有毛主席能拢得住

阿物评论哥
2026-02-08 11:53:25
乌克兰3颗子弹,换来俄军44枚导弹、400多架无人机轰炸

乌克兰3颗子弹,换来俄军44枚导弹、400多架无人机轰炸

兵国大事
2026-02-08 16:25:37
原本以为马杜罗会在美国的监狱里把牢底坐穿,没想到剧情突变!

原本以为马杜罗会在美国的监狱里把牢底坐穿,没想到剧情突变!

生活魔术专家
2026-02-07 10:50:01
楚国超级大墓,墓穴深到让盗墓贼绝望,官方动员2万人才找到墓室

楚国超级大墓,墓穴深到让盗墓贼绝望,官方动员2万人才找到墓室

蒋南强读历史
2026-02-08 14:10:05
中国共产党中央军事委员会副主席张升民简历

中国共产党中央军事委员会副主席张升民简历

上观新闻
2025-10-23 18:17:07
庾澄庆母亲张正芬有多美?风华绝代气质非凡,是国宝级国剧名伶

庾澄庆母亲张正芬有多美?风华绝代气质非凡,是国宝级国剧名伶

万物知识圈
2025-12-17 09:17:12
护肝片哪个品牌最好?2026养护肝终极指南:饮食、作息搭配肝益莱

护肝片哪个品牌最好?2026养护肝终极指南:饮食、作息搭配肝益莱

食品安全与法律网
2026-02-07 11:13:16
交易员一个低级失误,向695名用户发放了62万枚比特币(价值超440亿美元),收到的用户看到后马上砸盘、变现、提钱跑路

交易员一个低级失误,向695名用户发放了62万枚比特币(价值超440亿美元),收到的用户看到后马上砸盘、变现、提钱跑路

极目新闻
2026-02-08 11:34:00
新华社消息|日本众议院选举投票开始 执政联盟能否过半成焦点

新华社消息|日本众议院选举投票开始 执政联盟能否过半成焦点

新华社
2026-02-08 10:43:15
刘正:湖南省人民政府原省长、湖南省政协原主席

刘正:湖南省人民政府原省长、湖南省政协原主席

天气观察站
2026-02-08 13:46:03
河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

大鱼简科
2026-02-07 16:50:52
院士:白酒有益健康,北大:8%中国男性是问题饮酒者,危害严重

院士:白酒有益健康,北大:8%中国男性是问题饮酒者,危害严重

科海识贝sci
2026-02-08 12:18:29
2026-02-08 17:03:00
白驹谈人机 incentive-icons
白驹谈人机
人机交互与认知工程实验室
1700文章数 51关注度
往期回顾 全部

科技要闻

欧盟认定存在"上瘾"设计 TikTok:结论错误

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

头条要闻

金手镯断裂掉出2颗钢珠少0.3克 同批产品查验结果意外

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

曝带女星回老家小区,罗云熙紧急回应

财经要闻

宽基ETF开年大赎回,什么信号?

汽车要闻

VLA司机大模型优化 理想汽车OTA8.3版本更新

态度原创

教育
本地
时尚
健康
公开课

教育要闻

二次函数,等面积三角形,初中中考几何压轴题必考题型

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

40+女性冬季这样穿:“长外套+裙子”,保暖与洋气双向在线

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版