网易首页 > 网易号 > 正文 申请入驻

AI搜索风靡,但高达60%引用出错!付费版甚至更糟

0
分享至

新智元报道

编辑:英智

【新智元导读】AI搜索工具正席卷美国,近四分之一的人已抛弃传统搜索引擎。然而,最新研究揭露,这些工具在引用新闻时错误率高达60%,令人大跌眼镜。

近四分之一的美国人表示他们已经用AI取代了传统搜索引擎。

最新研究发现,AI搜索工具在回答问题时,常常出现自信却错误百出的情况。

研究对比了8款具有实时搜索功能的AI工具,发现它们在引用新闻方面表现不佳,出错比例高达60%。

研究人员从每个新闻出版商随机挑选10篇文章,手动选取内容。

向聊天机器人提供这些摘录的内容后,要求它们识别相应文章的标题、原始出版商、发布日期和网址。

实验共进行了1600次提问(20个出版商×10篇文章×8个AI搜索工具),然后根据正确的文章、出版商和网址这三个属性,对AI的回复进行评估。

结果令人失望,超过60%的回复中都存在错误。不同平台差异明显,Perplexity的错误率为37%,Grok 3更是高达94%!

自信地给出错误答案

AI搜索工具往往以一种自信满满的语气给出答案,很少使用「似乎」「有可能」「也许」等词语,也极少承认存在知识缺口。

例如,ChatGPT在200次回复中错误识别了134篇文章,仅有15次表现出缺乏自信,并且从未拒绝提供答案。

除了Copilot之外,所有工具都更倾向于给出错误答案,而不是承认局限性。

令人惊讶的是,付费模型的表现似乎更糟糕。

Grok-3 Search(每月40美元)和Perplexity Pro(每月20美元)比免费版本更频繁地给出自信但错误的答案。

这些付费版本应凭借更高的成本和计算优势提供更可靠的服务,但实际测试结果却恰恰相反。虽然它们回答了更多问题,但错误率也更高。

付费用户期望得到更优质、准确的服务,然而这种权威的语气和错误答案,无疑给用户带来了极大的困扰。

爬虫乱象:侵犯出版商权益

ChatGPT、Perplexity及Pro版本、Copilot和Gemini公开了各自爬虫程序的名称,给了出版商屏蔽的权利,Grok 2和Grok 3尚未公布。

它们应能正确查询其爬虫程序可访问的网站,并拒绝已屏蔽其内容访问权限的网站。

然而,实际情况并非如此。

ChatGPT、Perplexity和Perplexity Pro时而错误或拒绝回答允许其访问的网站,时而又正确回答那些因爬虫受限而无法获取的信息。

Perplexity Pro是其中的「佼佼者」,在它无权访问的90篇文章中,竟然正确识别出了近三分之一的内容。

尽管《国家地理》已禁止Perplexity的爬虫程序访问,它仍正确识别出了10篇付费文章的摘录。

《国家地理》与Perplexity没有正式合作关系,Perplexity可能通过其他途径获取了受限内容,如可公开访问的出版物中的引用。

这不禁让人怀疑,Perplexity所谓的「尊重robots.txt指令」只是一句空谈。

开发者Robb Knight和《连线》杂志去年就报道过它无视「机器人排除协议」的证据。

《新闻公报》本月指出,尽管《纽约时报》屏蔽了Perplexity的爬虫,1月它依然是被引用最多的新闻网站,访问量高达146,000次。

虽然ChatGPT回答的屏蔽其爬虫的文章问题较少,但总体上它更倾向于给出错误答案,而非不回答。

在公开了爬虫程序名称的聊天机器人中,Copilot是唯一没有被数据集中的任何一家出版商屏蔽的。

理论上能访问所有查询内容的Copilot,却有着最高的拒答率。

Copilot拒绝回答问题的示例

谷歌给了出版商屏蔽Gemini爬虫而不影响谷歌搜索的权利,20家出版商里有10家允许其访问。

但在测试中,Gemini仅有一次给出了完全正确的回复。

在面对选举和政治相关内容时,即使允许访问,它也选择不回答。

Gemini拒绝回答问题的示例

尽管「机器人排除协议」不具有法律约束力,但它是被广泛接受的用于明确网站可爬取范围的标准。

AI搜索工具无视这一协议,无疑是对出版商权益的公然侵犯。

出版商有权决定自己的内容是否被用于AI搜索或成为模型的训练数据。

他们或许希望通过内容盈利,如设置付费墙,或者担心其作品在AI生成的摘要中被歪曲,影响声誉。

新闻媒体联盟主席Danielle Coffey去年6月忧心忡忡地指出:「若无法阻止大规模的数据爬取,我们无法将有价值的内容变现,也无法支付记者的薪酬。这将对行业造成严重损害。」

经常无法链接回原始来源

出版商的可信度常被用来提升AI搜索的可信赖度。

根据路透社的报道,鼓励用户从X平台获取实时更新的Grok,绝大多数时候引用的也是传统新闻机构的内容。

当AI搜索工具引用BBC这样的来源时,用户更有可能相信其给出的答案,即使这个答案是错误的。

但当聊天机器人给出错误答案时,它们损害的不只是自身,还有出版商的声誉。

AI搜索错误引用文章的情况相当普遍。就算聊天机器人正确识别了文章,也常常无法正确链接到原始来源。

一方面,期望获得曝光度的新闻发布者,错失了提升流量和影响力的机会;而那些不希望其内容被展示的出版商,却出现在搜索结果中。

AI搜索工具常常引导用户访问文章的非官方版本而不是原始来源。

例如,尽管Perplexity Pro与《德克萨斯论坛报》有合作关系,但在10次查询中,有3次引用了非官方版本。

这无疑剥夺了原始来源的潜在流量,破坏了新闻传播的正常生态。

对于不希望内容被抓取的新闻发布者来说,未经授权的副本和非官方版本更是让他们头疼不已。

《今日美国》已经屏蔽了ChatGPT的爬虫程序,但ChatGPT仍能引用雅虎新闻重发的版本,这让出版商在内容管理上极度被动。

与此同时,生成式搜索工具捏造网址的倾向,给核实信息来源造成极大的困扰。

Gemini和Grok 3给出的回复中,超过一半引用了编造的或无效的网址,严重影响了用户体验。Grok 3测试的200个提示中,有154个引用的网址指向了错误页面。

尽管目前在总推荐流量中的占比不大,在过去一年里,来自AI搜索工具的流量有了一定程度的增长。

《新闻公报》的Bron Maher表示,「AI搜索工具让新闻发布者陷入了困境,他们花费高昂成本制作能在ChatGPT等平台上展示的信息,却无法通过流量和广告获得收益。」

长此以往,新闻行业将会受到影响,最终导致信息质量和多样性下降。

授权协议不意味着准确引用

不少AI公司都在积极和新闻出版商套近乎。

今年2月,OpenAI和Schibsted和Guardian达成了第十六和第十七份新闻内容授权协议。

Perplexity也不甘落后,搞了个「出版商计划」,打算和出版商一起分收入。

研究人员在2月做了个测试,发现情况不太妙。

拿《时代周刊》来说,它和OpenAI、Perplexity都有合作。

按道理,它们在识别《时代周刊》的内容时,应该表现不错吧?

可实际上,没有一个模型能做到100%准确识别。

《旧金山纪事报》允许OpenAI的搜索爬虫访问,可在10篇文章摘录里,ChatGPT只正确识别出了1篇,还连网址都没给出来。

《时代周刊》的Howard认为,「今天是这些产品最糟糕的时刻」,以后肯定会越来越好。

参考资料:

https://arstechnica.com/ai/2025/03/ai-search-engines-give-incorrect-answers-at-an-alarming-60-rate-study-says/

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

锋哥与八卦哥
2026-01-25 13:26:51
震惊全球!新机官宣:2月18日,正式发布登场!

震惊全球!新机官宣:2月18日,正式发布登场!

科技堡垒
2026-01-24 12:37:22
向太唱衰李亚鹏!称全民拯救也没用,李亚鹏没能力又烂好心是硬伤

向太唱衰李亚鹏!称全民拯救也没用,李亚鹏没能力又烂好心是硬伤

离离言几许
2026-01-24 00:01:10
知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

知名制片人姜莹莹被腾讯解聘,移送公安局,给出的原因太恶劣!

一盅情怀
2026-01-25 15:54:20
国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

国安部“点名”张艺谋,释放三个强烈信号,原来我们确实低估他了

生命之泉的奥秘
2026-01-25 06:30:36
连爆5场!对手害怕谢泼德,阿门赛后发出请求,而乌度卡也明牌了

连爆5场!对手害怕谢泼德,阿门赛后发出请求,而乌度卡也明牌了

巴叔GO聊体育
2026-01-25 16:00:42
重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

每日经济新闻
2026-01-25 09:56:41
乌克兰没想到,当年高价卖给中国的三架破飞机,如今却成大国重器

乌克兰没想到,当年高价卖给中国的三架破飞机,如今却成大国重器

小涛叨叨
2026-01-25 17:35:39
新加坡急了!在东盟的会上,中国“尊重”马六甲的地位!

新加坡急了!在东盟的会上,中国“尊重”马六甲的地位!

福建平子
2026-01-25 09:20:29
美新版国防战略出现“重大转变”

美新版国防战略出现“重大转变”

参考消息
2026-01-24 19:37:03
宋军继辞去山东省副省长职务

宋军继辞去山东省副省长职务

新京报政事儿
2026-01-25 20:14:18
鱼的生长周期好像也没多长时间,为啥长江禁渔要长达10年?

鱼的生长周期好像也没多长时间,为啥长江禁渔要长达10年?

向航说
2026-01-18 00:50:03
大家坐稳扶好了,下周周一周二周三三天,牛市或将再次主升浪!

大家坐稳扶好了,下周周一周二周三三天,牛市或将再次主升浪!

夜深爱杂谈
2026-01-25 18:36:13
就在今天!努尔基奇打破尘封51年的纪录,登顶爵士队史第一

就在今天!努尔基奇打破尘封51年的纪录,登顶爵士队史第一

篮球大视野
2026-01-25 15:23:19
有人预测:明后年,二三十层电梯房,或将面临这3个结局,太真实

有人预测:明后年,二三十层电梯房,或将面临这3个结局,太真实

平说财经
2026-01-24 00:03:37
央八开播!胡歌领衔!40集大剧来了,看完阵容,我想说:这剧要爆

央八开播!胡歌领衔!40集大剧来了,看完阵容,我想说:这剧要爆

草本纪年
2026-01-25 19:11:36
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
68岁大妈喜欢睡前泡脚,不久脑梗去世,医生怒斥:太无知了

68岁大妈喜欢睡前泡脚,不久脑梗去世,医生怒斥:太无知了

医学科普汇
2025-12-13 16:40:05
重兵包抄伊朗,特朗普要打了?普京已通告俄将出手,中方也有行动

重兵包抄伊朗,特朗普要打了?普京已通告俄将出手,中方也有行动

科普100克克
2026-01-24 18:11:51
皇马1.8亿巨星上位!新帅力挺,比阿隆索公正,双核战术成亮点

皇马1.8亿巨星上位!新帅力挺,比阿隆索公正,双核战术成亮点

阿泰希特
2026-01-25 12:36:17
2026-01-25 21:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14411文章数 66529关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

头条要闻

加拿大华人医生夫妇携幼女到上海求医 花16万保下脾脏

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

数码
本地
家居
手机
公开课

数码要闻

网购微星RTX 5090显卡却收到浴巾裹石头,网友分享被骗经历

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

家居要闻

在家度假 160平南洋混搭宅

手机要闻

荣耀500 Pro MOLLY 20周年限定版开售:国补到手3999元 首款全机定制潮玩手机

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版