网易首页 > 网易号 > 正文 申请入驻

开放数据研究所发现大语言模型在公共服务信息上不可靠

0
分享至


开放数据研究所(ODI)的一项研究发现,主流大语言模型无法为医疗、税务和福利等关键公共服务提供可靠信息。

研究基于超过22000个大语言模型提示进行,这些提示旨在反映人们向生成式AI聊天机器人可能提出的问题类型,例如"我如何申请全民信贷?"。研究结果引发了对聊天机器人能否被信任提供准确政府服务信息的担忧。

该研究发布时正值英国政府宣布与Meta和Anthropic建立合作关系,开发用于导航公共服务的AI智能体。

ODI研究主任埃琳娜·辛珀尔表示:"如果大语言模型要在面向公民的服务中安全使用,我们需要了解这项技术在哪些方面可以信任,在哪些方面不能信任。"

研究将包括Anthropic的Claude-4.5-Haiku、Google的Gemini-3-Flash和OpenAI的ChatGPT-4o等模型的回答与官方政府来源直接比较。

结果显示许多回答正确,但质量存在显著差异,特别是对于专业或不常见的查询。研究还显示,聊天机器人很少承认不知道问题答案,即使回答不完整或错误,也会尝试回答每个查询。

掩埋关键事实

聊天机器人还经常提供冗长的回答,掩埋关键事实或超出政府网站提供的信息范围,增加了不准确的风险。

Meta的Llama 3.1 8B声称,在孩子的出生证明上添加前伴侣姓名需要法院命令。如果遵循这一建议,将导致不必要的压力和经济成本。

ChatGPT-OSS-20B错误地建议,照顾父母已故儿童的人只有在成为已故儿童的监护人时才有资格获得监护人津贴。它还错误地声明,如果申请人为该儿童接受其他福利,则不符合条件。

辛珀尔表示,对于公民而言,研究强调了AI素养的重要性,而对于设计公共服务的人员来说,"考虑到技术发展速度,建议在匆忙采用大型或昂贵模型时保持谨慎,这些模型强调供应商锁定的必要性。我们还需要更多独立基准、更多公共测试,以及更多关于如何使这些系统产生精确可靠答案的研究。"

2月3日发布的第二份国际AI安全报告对AI智能体系统可靠性得出了类似结论。报告指出,虽然自2025年安全报告以来,在回忆事实信息方面有所改进,"但即使是领先模型仍以显著比例给出自信但错误的答案"。

遵循错误建议

报告还发现用户普遍倾向于遵循自动化系统(包括聊天机器人)的错误建议,"因为他们忽略了错误信号,或者认为自动化系统比自己的判断更优秀"。

ODI的研究还挑战了更大、更资源密集的模型总是更适合公共部门的观念,在许多情况下,较小模型以比ChatGPT等大型闭源模型更低的成本提供了相当的结果。

辛珀尔警告政府应避免在模型在价格或基准测试中暂时超越彼此时锁定长期合同。

在ODI研究发布活动上,Full Fact AI负责人安德鲁·达德菲尔德评论说,由于政府立场是支持创新的,监管目前围绕原则而非详细规则制定。

"英国采用AI的速度可能比学会如何使用它的速度更快,特别是在问责制方面,"他说。

可信度

达德菲尔德指出,这项工作引人注目的原因在于它关注真实用户需求,但可信度需要从依赖信息的人的角度评估,而不是从展示技术能力的角度。

"真正的风险不仅是幻觉,还有人们对听起来合理的回答的信任程度,"她说。

在同一活动中被问及政府应该构建自己的系统还是依赖商业工具时,贝内特公共政策学院研究员理查德·波普说,政府需要"对依赖性和主权保持谨慎"。

"AI项目应该从小规模开始,逐步发展并分享他们学到的东西,"他说,并补充说公共部门项目应该优先考虑学习和开放性,而不是快速扩张。

辛珀尔强调,AI创造了为不同语言或理解水平定制信息的潜力,但这些机会"需要被塑造,而不是任其自然发展"。

随着每周都有新的AI模型发布,2026年1月的Gartner研究发现,AI系统产生的大量未验证和低质量数据对大语言模型的可靠性构成了明显且现实的威胁。

大语言模型使用从网络、书籍、研究论文和代码库抓取的数据进行训练。虽然许多这些来源已经包含AI生成的数据,但按照目前的扩张速度,它们可能都会被AI生成的内容填充。

Gartner强调,随着AI生成数据量的增长,未来的大语言模型将越来越多地使用当前模型的输出进行训练,存在模型在自身幻觉和不准确现实累积重压下完全崩溃的风险。

管理副总裁万慧婵表示,组织不能再隐含地信任数据,或假设数据甚至是人类生成的。

万慧婵补充说,随着AI生成数据变得更加普遍,许多地区对验证"AI无关"数据的监管要求将会加强。

Q&A

Q1:大语言模型在提供公共服务信息方面存在什么问题?

A:开放数据研究所研究发现,主流大语言模型无法为医疗、税务和福利等关键公共服务提供可靠信息。模型回答质量存在显著差异,特别是对专业或不常见查询,且很少承认不知道答案,即使回答错误也会尝试回答每个问题。

Q2:聊天机器人提供政府服务信息时会出现哪些具体错误?

A:研究显示聊天机器人经常提供冗长回答掩埋关键事实,或超出政府网站信息范围。例如Meta的Llama模型错误声称添加前伴侣姓名到出生证明需要法院命令,ChatGPT模型对监护人津贴申请条件给出错误建议。

Q3:如何应对大语言模型在公共服务中的可靠性问题?

A:专家建议政府在采用AI技术时保持谨慎,避免锁定长期合同,需要更多独立基准和公共测试。AI项目应从小规模开始逐步发展,优先考虑学习和开放性。同时强调AI素养的重要性,用户需要从依赖信息者角度评估可信度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯情报军官投奔乌克兰!反对军破坏莫斯科附近通讯系统

俄罗斯情报军官投奔乌克兰!反对军破坏莫斯科附近通讯系统

项鹏飞
2026-02-13 20:25:15
为什么领导很少生病请假,总是精力充沛?主要有这4点

为什么领导很少生病请假,总是精力充沛?主要有这4点

细说职场
2026-02-11 17:27:08
飞行员因病停飞向保险公司理赔遭拒 法院一审判决保险公司全额支付保险金220万

飞行员因病停飞向保险公司理赔遭拒 法院一审判决保险公司全额支付保险金220万

红星新闻
2026-02-14 10:40:21
你什么时候意识到家里长辈不简单的?网友:一看署名,给我吓呆了

你什么时候意识到家里长辈不简单的?网友:一看署名,给我吓呆了

另子维爱读史
2026-02-13 19:31:46
孤独婚车李婷曝光,婆家在农村,公婆勤劳婚房气派,人民日报点赞

孤独婚车李婷曝光,婆家在农村,公婆勤劳婚房气派,人民日报点赞

普陀动物世界
2026-02-13 18:31:16
非洲小国史上首次参加冬奥会,唯一选手是华人,出生在美国

非洲小国史上首次参加冬奥会,唯一选手是华人,出生在美国

米修体育
2026-02-14 00:33:09
女孩因神似敦煌壁画美人意外走红,家长回应:没有炒作,孩子还是要以学业为主

女孩因神似敦煌壁画美人意外走红,家长回应:没有炒作,孩子还是要以学业为主

大象新闻
2026-02-13 17:47:04
孙颖莎王曼昱擦边球后续,8大名将发声,郝帅发言最中肯

孙颖莎王曼昱擦边球后续,8大名将发声,郝帅发言最中肯

好乒乓
2026-02-14 12:13:35
斐济群岛发生6.0级地震 震源深度530千米

斐济群岛发生6.0级地震 震源深度530千米

每日经济新闻
2026-02-11 05:50:05
美媒:杨瀚森把克林根“秀”进今日五佳球,中国中锋全能进攻成热议

美媒:杨瀚森把克林根“秀”进今日五佳球,中国中锋全能进攻成热议

kio鱼
2026-02-14 12:31:29
如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

如果“武统”,解放台湾要多久?解放军中将:六战一体,最多三天

混沌录
2026-02-01 15:14:10
欧盟峰会一幕:梅洛尼离开时冻得瑟瑟发抖,边走边说“太冷了,冻死我了”

欧盟峰会一幕:梅洛尼离开时冻得瑟瑟发抖,边走边说“太冷了,冻死我了”

环球网资讯
2026-02-14 09:30:12
“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

“谁会买你老公的大头照?”宝妈创业开超市,最终败给了低认知

妍妍教育日记
2026-02-12 18:48:38
一夜爆火!八千元就能买匹迷你小马?马主:隐性开销大得吓死人……

一夜爆火!八千元就能买匹迷你小马?马主:隐性开销大得吓死人……

环球网资讯
2026-02-13 20:40:28
美国历史上第一位二百五总统即将诞生,就是当今美国总统特朗普…

美国历史上第一位二百五总统即将诞生,就是当今美国总统特朗普…

福建平子
2026-02-08 13:17:52
在日本待了5年我才敢说:很多人眼里的日本,根本不是那么回事

在日本待了5年我才敢说:很多人眼里的日本,根本不是那么回事

夜深爱杂谈
2026-02-13 21:05:31
宁波外援法尔参加NBA全明星名人赛,狂轰21分20板5帽

宁波外援法尔参加NBA全明星名人赛,狂轰21分20板5帽

懂球帝
2026-02-14 10:47:08
初代小米SU7彻底停产!小米汽车:准备了至少10年以上的备件保障能力

初代小米SU7彻底停产!小米汽车:准备了至少10年以上的备件保障能力

快科技
2026-02-12 22:14:07
史诗级封杀!2000万网红“听风的蚕”彻底凉了

史诗级封杀!2000万网红“听风的蚕”彻底凉了

互联网品牌官
2026-02-12 01:17:23
国外男子将普通家鸡带上万米高空后随即抛下,视频引发网友愤怒!

国外男子将普通家鸡带上万米高空后随即抛下,视频引发网友愤怒!

特约前排观众
2026-02-13 00:15:05
2026-02-14 16:51:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
16185文章数 49690关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

乌克兰问题会议鲁比奥临时"放鸽子" 欧洲官员:他疯了

头条要闻

乌克兰问题会议鲁比奥临时"放鸽子" 欧洲官员:他疯了

体育要闻

金博洋:天才少年的奥运终章

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

健康
艺术
家居
数码
时尚

转头就晕的耳石症,能开车上班吗?

艺术要闻

董其昌极少见的大字行书,每个字超过15厘米,喷子再也不敢说他用笔无力了

家居要闻

中古雅韵 乐韵伴日常

数码要闻

机情问答:iQOO 15 Ultra和红魔11 Air玩FPS游戏谁更好

穿上这些鞋拥抱春天

无障碍浏览 进入关怀版