网易首页 > 网易号 > 正文 申请入驻

新研究发现人工智能搜索工具的平均准确率仅为60%

0
分享至

人工智能模型可能缺乏准确性,这是不争的事实。 对于开发人员来说,产生幻觉和重复错误信息一直是一个棘手的问题。 由于用例千差万别,因此很难确定与人工智能准确性相关的可量化百分比。 一个研究团队声称,他们现在已经掌握了这些数字。

Tow 数字新闻中心最近研究了八个AI搜索引擎,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。 他们测试了每种工具的准确性,并记录了工具拒绝回答的频率。

研究人员从 20 家新闻出版社(每家 10 篇)随机选择了 200 篇新闻报道。 他们确保每篇报道在使用文章摘录时都能在Google搜索中返回前三个结果。 然后,他们在每个人工智能搜索工具中执行相同的查询,并根据搜索是否正确引用了 A)文章、B)新闻机构和 C)URL 来评定准确性。

然后,研究人员根据从"完全正确"到"完全不正确"的准确度给每条搜索贴上标签。 从下图中可以看出,除了两个版本的 Perplexity 外,其他人工智能的表现都不理想。 总体而言,人工智能搜索引擎有 60% 的时间是不准确的。 此外,人工智能对这些错误结果的"信心"也强化了这些错误结果。

这项研究之所以引人入胜,是因为它以量化的方式证实了我们几年前就已经知道的事实--LLM是"史上最狡猾的骗子"。 他们以完全权威的口吻报告说,他们所说的都是真的,即使事实并非如此,有时甚至会争辩或在面对质疑时编造其他虚假的断言。

在 2023 年的一篇轶事文章中,Ted Gioia(诚实的经纪人)指出了数十条 ChatGPT 的回复,显示机器人在回复大量询问时自信地"撒谎"。 虽然有些例子是对抗性询问,但许多只是一般性问题。

即使承认自己错了,ChatGPT 也会在承认错误之后提供更多的虚假信息。 LLM 似乎被编程为不惜一切代价回答用户的每一个输入。 研究人员的数据证实了这一假设,并指出 ChatGPT Search 是唯一能回答全部 200 条文章查询的人工智能工具。 不过,它的完全准确率仅为 28%,完全不准确的时间占 57%。

ChatGPT 还不是最差的。 X 的 Grok AI 的两个版本都表现不佳,但Grok-3 Search 的准确率高达 94%。 微软的 Copilot 也没好到哪里去,因为它在 200 次查询中拒绝回答了 104 次。 在剩下的 96 个查询中,只有 16 个"完全正确",14 个"部分正确",66 个"完全错误",因此它的准确率大约为 70%。

可以说,这一切最疯狂的地方在于,制造这些工具的公司对这种缺乏准确性的情况并不透明,同时向公众收取每月 20 到 200 美元的费用。 此外,Perplexity Pro(20 美元/月)和 Grok-3 Search(40 美元/月)比其免费版本(Perplexity 和 Grok-2 Search)回答的查询正确率略高,但错误率也明显更高(上图)。

不过,并非所有人都同意这种说法。 TechRadar 的兰斯-乌拉诺夫(Lance Ulanoff)表示,在尝试了 ChatGPT Search 之后,他可能再也不会使用 Google 了。 他描述说,该工具快速、清晰、准确,界面简洁、无广告。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼:如果日本驱逐薛剑,就是向中国宣战!

燕梳楼频道
2025-11-13 12:44:36
直冲26℃!湖南将迎大升温!

直冲26℃!湖南将迎大升温!

湖南法治报
2026-02-09 14:56:32
“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,如今怎么样了

“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,如今怎么样了

甜柠聊史
2025-12-27 10:54:15
空砍25+7+4!舍不得哈登,小卡赛后说出心里话,泰伦卢也把话挑明

空砍25+7+4!舍不得哈登,小卡赛后说出心里话,泰伦卢也把话挑明

巴叔GO聊体育
2026-02-09 16:10:04
54岁汪峰形象大变,带醒醒三亚度假,近照发量稀少已有谢顶迹象!

54岁汪峰形象大变,带醒醒三亚度假,近照发量稀少已有谢顶迹象!

娱乐团长
2026-02-09 15:42:22
橙子再次被发现!医生发现:高血压患者常吃橙子,或出现4种变化

橙子再次被发现!医生发现:高血压患者常吃橙子,或出现4种变化

小胡军事爱好
2026-02-08 22:34:31
孙颖莎王楚钦领衔!国乒世界杯11人大名单出炉

孙颖莎王楚钦领衔!国乒世界杯11人大名单出炉

大嘴说台球
2026-02-09 03:21:02
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
纽约期银日内涨7%,现报82.29美元/盎司

纽约期银日内涨7%,现报82.29美元/盎司

每日经济新闻
2026-02-10 00:09:04
25万价位的大爆款来了 全新问界M6实车多方位展示

25万价位的大爆款来了 全新问界M6实车多方位展示

快科技
2026-02-09 08:33:09
美国防部称在印度洋拦截一艘油轮

美国防部称在印度洋拦截一艘油轮

新华社
2026-02-09 21:14:26
查扣电动车该停了,纠正执法乱象,电动车要严管更要“温度”

查扣电动车该停了,纠正执法乱象,电动车要严管更要“温度”

趣味萌宠的日常
2026-02-09 21:47:52
女性绝经后,还能进行夫妻生活吗?下面干巴巴的,究竟该怎么办?

女性绝经后,还能进行夫妻生活吗?下面干巴巴的,究竟该怎么办?

医者荣耀
2025-12-11 12:05:05
蓉城国脚扎堆!狂砸1600万为双星开出三年合同,泰山接触多哥中卫

蓉城国脚扎堆!狂砸1600万为双星开出三年合同,泰山接触多哥中卫

刀锋体育
2026-02-09 19:53:51
日本签字了,高市选定中日主战场,对华开第二枪,解放军开始巡海

日本签字了,高市选定中日主战场,对华开第二枪,解放军开始巡海

小祁谈历史
2026-01-07 10:39:18
腰斩的比特币,大佬也无法幸免,一周亏7亿美元

腰斩的比特币,大佬也无法幸免,一周亏7亿美元

上观新闻
2026-02-09 22:24:03
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
陕西男子坠落身亡,180万赔偿后发现网贷未还,家属拒绝退款。

陕西男子坠落身亡,180万赔偿后发现网贷未还,家属拒绝退款。

特约前排观众
2026-02-10 00:15:06
美国主持人来中国 7 天,回国后直言:美国民众上当了

美国主持人来中国 7 天,回国后直言:美国民众上当了

千秋历史
2026-02-08 19:59:12
油价大跌超1.74元/升,创新低的油价,2026年已“连涨290元/吨”

油价大跌超1.74元/升,创新低的油价,2026年已“连涨290元/吨”

油价早知道
2026-02-08 01:51:14
2026-02-10 01:07:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
66490文章数 70080关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

头条要闻

人民日报评"南博事件":无论涉及到什么人 绝不放任

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

健康
房产
旅游
家居
公开课

转头就晕的耳石症,能开车上班吗?

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

旅游要闻

提前探营!10米垂枝梅与雕塑共舞,世博文化公园奇花艺境展本周启幕

家居要闻

山院焕新 雅聚悦亲朋

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版