欧洲广播联盟(EBU)和英国广播公司(BBC)于10月22日发布了一项关于ChatGPT等生成式AI新闻内容准确性等的调查结果,该调查覆盖18个国家、14种语言。
![]()
调查结果显示,生成式AI的回答中,有45%存在至少一个“严重问题”(如错误等),若范围扩大至至少包含轻微问题的话,则高达81%的回答存在某种问题。
另一方面,用户越来越倾向于依赖生成式AI来获取新闻。牛津大学路透社新闻研究所的调查显示,在25岁以下人群中,这一比例高达15%。
通过生成式AI传播信息,内含着损害新闻信任度的风险。
● 谷歌Gemini问题尤为显著
该报告指出,(AI)助手的回答未能满足准确性和提供适当上下文等基本标准。其问题比例之大令人担忧。这些标准是高质量新闻和新闻内容不可或缺的编辑价值。(具体来说)关于“出处”标注的“严重问题”占比最大,尤其是Gemini的问题尤为突出,
欧洲广播联盟(EBU)和英国BBC于10月22日发布的《AI助手新闻完整性报告》如是说。
本次调查有来自欧洲16国(如英国的BBC、德国的ARD、ZDF、德意志韦勒、法国的法国电台、乌克兰的Suspilne等)以及美国(NPR)、加拿大(CBC/加拿大广播公司)共18个国家的22家公共广播机构参与。调查针对OpenAI的ChatGPT、微软的Copilot、谷歌的Gemini以及Perplexity这4种生成式AI,使用14种语言进行了问题调查。调查于2025年5月至6月期间进行。
在验证过程中,来自参与媒体的共计271名记者,对30个共享问题(如“特朗普如何计算关税?”、“泽连斯基为何不穿西装?”、“缅甸地震死亡人数是多少?”)的答案(共2,709份)以及各媒体追加问题的答案(共353份),总计3,062份内容,从“准确性”、“出处”、“意见与事实的分离”、“有无编辑性解读”、“上下文提供”这五个角度进行了验证。
结果发现,整体上有45%的案例被确认存在至少一个“严重问题”;若仅包含更轻微的问题,则高达81%的生成式AI回答存在某种问题。
BBC曾于今年2月采用与本次类似的方法对4种生成式AI进行过验证,本次调查将范围扩大至欧洲和北美。当时的验证结果显示,51%的回答存在“严重问题”,91%的回答存在某种问题。
按生成式AI分类,“严重问题”比例最高的是Gemini,达76%,其次是Copilot(37%)、ChatGPT(36%)、Perplexity(30%)。Gemini回答的问题尤为突出,是其他生成式AI的两倍以上。
● “出处”问题
在个别验证项目中,“出处”问题最为突出,有31%存在“严重问题”。具体表现为:未标明新闻来源出处、标明了出处但与回答内容不符、或标明了错误的出处等。
由此带来的风险是,例如,被引为出处的媒体并未报道过的内容或错误内容,会以“来自该媒体”的形式流通和扩散。
据称,Gemini“严重问题”多,主要受其“出处”错误影响较大。Gemini在72%的回答中存在关于“出处”的“严重问题”,而ChatGPT为24%,Perplexity和Copilot均为15%,差距超过三倍。
包括Gemini在内的其他验证项目中,“严重问题”的比例分别为:“准确性”20%,“上下文提供”14%。
在“准确性”方面,举例提到了诸如在5月份被问及“现任罗马教皇是”时,回答了已于4月去世的“教皇方济各”(ChatGPT)等案例。
Gemini在“准确性”方面的“严重问题”比例也是20%。在剩余的验证项目中,其问题水平与其他生成式AI大致相当。
● 生成式AI成为新闻接触点
生成式AI回答中包含虚假内容的“幻觉”问题早已被指出。
除此之外,其严重性还在于生成式AI作为新闻接触渠道的存在感日益增强。
随着生成式AI与搜索功能的整合,通过生成式AI获取实时新闻的趋势也日益显著。
本次调查还引用了牛津大学路透社新闻研究所2025年版调查报告《数字新闻报告》的数据,该数据显示欧美25岁以下人群使用AI聊天机器人作为新闻信息来源的比例已高达15%(整体为7%)。
报告最后指出:若此趋势持续,令人担忧的生成式AI的“严重问题”可能会扭曲欧美新闻业的生态系统。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.