网易首页 > 网易号 > 正文 申请入驻

新研究:AI搜索工具平均准确率仅六成,且自信满满“不认错”

0
分享至

IT之家 3 月 13 日消息,据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款 AI 搜索引擎展开研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性,并记录了它们拒绝回答问题的频率。

研究人员从 20 家新闻机构中随机挑选了 200 篇报道(每家 10 篇),确保它们在谷歌搜索时能排在前三位,然后用相同的查询方式测试各 AI 搜索工具,并评估它们是否正确引用了文章内容、新闻机构名称和原始链接

测试结果显示,除 Perplexity 及其付费版外,其余 AI 搜索引擎的表现都不尽如人意。整体来看,AI 搜索引擎提供的答案有 60% 是不准确的,而且 AI 对错误答案的“自信”反而加剧了问题。

这项研究的重要性在于,它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错,还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息,甚至在被质疑时仍然试图自圆其说。

即使承认了错误,ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中,几乎是无论如何都要给出答案”。研究数据支持了这一观点:ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具,但其“完全正确”率仅 28%,而“完全错误”率高达 57%

ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪,其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中,有 104 次拒绝作答,剩下的 96 次中,仅 16 次“完全正确”,14 次“部分正确”,66 次“完全错误”,总体错误率接近 70%

这些 AI 工具的开发公司并未公开承认这些问题,却仍向用户收取每月 20 至 200 美元(IT之家备注:当前约 145 至 1449 元人民币)的订阅费。此外,付费版 Perplexity Pro(20 美元 / 月)和 Grok-3 Search(40 美元 / 月)比免费版回答得更多,但错误率也更高。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁波这条曾经方便又热闹的小街,商铺集体凉凉?网友:路修太久,生意难做

宁波这条曾经方便又热闹的小街,商铺集体凉凉?网友:路修太久,生意难做

今日搞笑分享
2026-02-09 09:55:58
网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

网友称买到无座票被提醒不能在静音车厢停留,12306:高铁静音车厢不发售无座票

极目新闻
2026-02-08 19:38:45
欧智库:中国想称霸、想统一台湾都可以,前提是“请先拯救世界”

欧智库:中国想称霸、想统一台湾都可以,前提是“请先拯救世界”

阿凫爱吐槽
2026-01-07 12:21:39
美股光通讯概念股延续强势

美股光通讯概念股延续强势

财联社
2026-02-09 23:38:09
全球首家无人公司开业!OpenClaw 24小时不休,疯狂碾压打工人

全球首家无人公司开业!OpenClaw 24小时不休,疯狂碾压打工人

新智元
2026-02-08 17:54:02
冯巩南京商演现场曝光,一张嘴就是公式相声味,票价堪比郭德纲

冯巩南京商演现场曝光,一张嘴就是公式相声味,票价堪比郭德纲

离离言几许
2026-02-07 19:14:31
国学大师曾仕强:2026年,有些地方请尽量少去

国学大师曾仕强:2026年,有些地方请尽量少去

郁郁乎文
2026-02-09 21:29:32
魏博牙兵覆灭记,一场板砖与刀枪的绝望对决

魏博牙兵覆灭记,一场板砖与刀枪的绝望对决

掠影后有感
2026-02-08 11:37:31
奇怪!被CBA抛弃的罗汉琛,被媒体大赞太香了,应该感谢张庆鹏

奇怪!被CBA抛弃的罗汉琛,被媒体大赞太香了,应该感谢张庆鹏

林子说事
2026-02-09 14:30:31
66岁的黑木瞳保养太好了,看着还像2,30岁!

66岁的黑木瞳保养太好了,看着还像2,30岁!

日本物语
2026-01-27 20:53:05
日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

篮球看比赛
2026-02-04 17:46:56
电力设备持续高景气,2026订单最多的12家龙头企业(精选名单)

电力设备持续高景气,2026订单最多的12家龙头企业(精选名单)

小陆搞笑日常
2026-02-09 17:05:59
余白:一种丰盈的轻盈

余白:一种丰盈的轻盈

疾跑的小蜗牛
2026-02-09 21:43:25
美的商城原价5999元净水机错标成509元 消费者下单4台后遭强行关闭订单

美的商城原价5999元净水机错标成509元 消费者下单4台后遭强行关闭订单

信网
2026-02-09 06:12:47
人类婴儿为什么这么能哭?在原始社会难道不怕引来野兽吗?

人类婴儿为什么这么能哭?在原始社会难道不怕引来野兽吗?

宇宙时空
2026-02-08 20:45:05
吴千语南极零下30度游泳,身体素质超强,施伯雄船上观看

吴千语南极零下30度游泳,身体素质超强,施伯雄船上观看

相思赋予谁a
2026-02-09 15:17:26
俄九枚导弹打击乌空军基地!到底发现了什么?乌军8成战备被摧毁

俄九枚导弹打击乌空军基地!到底发现了什么?乌军8成战备被摧毁

看尽人间百态
2026-02-10 00:06:59
乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

乌克兰高兴早了,俄军中将抢救成功:不到48小时,阿联酋抓住杀手

霁寒飘雪
2026-02-09 11:35:39
亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

亲哥去世弟弟请假未获批去奔丧被辞,公司:丧假主要适用于直系亲属,且其未经同意请假;法院判了

极目新闻
2026-02-08 23:54:17
美媒评论东风-5C导弹:恐怖!若丢一枚到美国,会造成啥样的景象

美媒评论东风-5C导弹:恐怖!若丢一枚到美国,会造成啥样的景象

壹知眠羊
2026-02-08 14:13:21
2026-02-10 02:28:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
328989文章数 606981关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

家居
健康
教育
亲子
军事航空

家居要闻

山院焕新 雅聚悦亲朋

转头就晕的耳石症,能开车上班吗?

教育要闻

孩子爱玩手机不爱学习?你没用对方法!

亲子要闻

妈妈第一次放鞭炮太紧张了

军事要闻

美伊最敏感时刻 林肯号航母迎来三位“不速之客”

无障碍浏览 进入关怀版