网易首页 > 网易号 > 正文 申请入驻

新研究发现人工智能搜索工具的平均准确率仅为60%

0
分享至

人工智能模型可能缺乏准确性,这是不争的事实。 对于开发人员来说,产生幻觉和重复错误信息一直是一个棘手的问题。 由于用例千差万别,因此很难确定与人工智能准确性相关的可量化百分比。 一个研究团队声称,他们现在已经掌握了这些数字。

Tow 数字新闻中心最近研究了八个AI搜索引擎,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。 他们测试了每种工具的准确性,并记录了工具拒绝回答的频率。

研究人员从 20 家新闻出版社(每家 10 篇)随机选择了 200 篇新闻报道。 他们确保每篇报道在使用文章摘录时都能在Google搜索中返回前三个结果。 然后,他们在每个人工智能搜索工具中执行相同的查询,并根据搜索是否正确引用了 A)文章、B)新闻机构和 C)URL 来评定准确性。

然后,研究人员根据从"完全正确"到"完全不正确"的准确度给每条搜索贴上标签。 从下图中可以看出,除了两个版本的 Perplexity 外,其他人工智能的表现都不理想。 总体而言,人工智能搜索引擎有 60% 的时间是不准确的。 此外,人工智能对这些错误结果的"信心"也强化了这些错误结果。

这项研究之所以引人入胜,是因为它以量化的方式证实了我们几年前就已经知道的事实--LLM是"史上最狡猾的骗子"。 他们以完全权威的口吻报告说,他们所说的都是真的,即使事实并非如此,有时甚至会争辩或在面对质疑时编造其他虚假的断言。

在 2023 年的一篇轶事文章中,Ted Gioia(诚实的经纪人)指出了数十条 ChatGPT 的回复,显示机器人在回复大量询问时自信地"撒谎"。 虽然有些例子是对抗性询问,但许多只是一般性问题。

即使承认自己错了,ChatGPT 也会在承认错误之后提供更多的虚假信息。 LLM 似乎被编程为不惜一切代价回答用户的每一个输入。 研究人员的数据证实了这一假设,并指出 ChatGPT Search 是唯一能回答全部 200 条文章查询的人工智能工具。 不过,它的完全准确率仅为 28%,完全不准确的时间占 57%。

ChatGPT 还不是最差的。 X 的 Grok AI 的两个版本都表现不佳,但Grok-3 Search 的准确率高达 94%。 微软的 Copilot 也没好到哪里去,因为它在 200 次查询中拒绝回答了 104 次。 在剩下的 96 个查询中,只有 16 个"完全正确",14 个"部分正确",66 个"完全错误",因此它的准确率大约为 70%。

可以说,这一切最疯狂的地方在于,制造这些工具的公司对这种缺乏准确性的情况并不透明,同时向公众收取每月 20 到 200 美元的费用。 此外,Perplexity Pro(20 美元/月)和 Grok-3 Search(40 美元/月)比其免费版本(Perplexity 和 Grok-2 Search)回答的查询正确率略高,但错误率也明显更高(上图)。

不过,并非所有人都同意这种说法。 TechRadar 的兰斯-乌拉诺夫(Lance Ulanoff)表示,在尝试了 ChatGPT Search 之后,他可能再也不会使用 Google 了。 他描述说,该工具快速、清晰、准确,界面简洁、无广告。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武契奇逛完长城发帖:在纪念品商店给三个娃都买了小礼物,看看都买了啥?

武契奇逛完长城发帖:在纪念品商店给三个娃都买了小礼物,看看都买了啥?

极目新闻
2026-05-24 21:34:57
不打了!西决报销!雷霆伤病潮来了

不打了!西决报销!雷霆伤病潮来了

篮球教学论坛
2026-05-24 09:17:30
这5种药不宜长期服用,可能破坏身体免疫力!很多人都不知道

这5种药不宜长期服用,可能破坏身体免疫力!很多人都不知道

芹姐说生活
2026-05-24 14:15:40
枪击、油断、内讧:本季菲律宾还有啥?

枪击、油断、内讧:本季菲律宾还有啥?

新民周刊
2026-05-24 13:36:59
日本2025世博会电动大巴报废,当时宣称日本制造,实为外包给中国小厂贴牌

日本2025世博会电动大巴报废,当时宣称日本制造,实为外包给中国小厂贴牌

可达鸭面面观
2026-05-22 09:28:08
中超形势:蓉城仍10分领跑 3豪门同分+跌至下半区,下轮3场焦点战

中超形势:蓉城仍10分领跑 3豪门同分+跌至下半区,下轮3场焦点战

我爱英超
2026-05-24 22:06:25
伊朗总统:准备向世界保证,伊朗不寻求拥有核武器

伊朗总统:准备向世界保证,伊朗不寻求拥有核武器

新华社
2026-05-24 20:20:19
江苏常熟一仓库发生火灾,系隆力奇产品仓库,工作人员:火灾为晚间发生,未造成人员伤亡,经济损失暂无统计报告

江苏常熟一仓库发生火灾,系隆力奇产品仓库,工作人员:火灾为晚间发生,未造成人员伤亡,经济损失暂无统计报告

台州交通广播
2026-05-24 17:51:29
“空军一号”前屹立的礼兵:站在那里不仅代表我自己

“空军一号”前屹立的礼兵:站在那里不仅代表我自己

环球时报国际
2026-05-24 20:44:46
工人坠亡赔偿约100万,因瞒报等被罚175万,老板抵押父亲房产证贷款缴罚金5年后被发现,不服处罚起诉被驳回

工人坠亡赔偿约100万,因瞒报等被罚175万,老板抵押父亲房产证贷款缴罚金5年后被发现,不服处罚起诉被驳回

大风新闻
2026-05-24 17:34:04
官方通报“都溪林场家属小区马匹受惊致一女童死亡”

官方通报“都溪林场家属小区马匹受惊致一女童死亡”

界面新闻
2026-05-24 22:33:16
上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

上海水果摊老板免费送杨梅,一上午送出5000斤!“烂在树上很可惜,都有检测证书的”

大风新闻
2026-05-24 11:19:04
高市早苗发文慰问山西煤矿遇难者

高市早苗发文慰问山西煤矿遇难者

名人苟或
2026-05-24 06:57:27
中东传来大消息,特朗普:就等各国最终敲定!国际原油暗盘大跌

中东传来大消息,特朗普:就等各国最终敲定!国际原油暗盘大跌

每日经济新闻
2026-05-24 19:54:16
中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

中央气象台:江苏、上海、浙江西部、安徽南部、湖北东部和南部等地出现较强雷达回波

大风新闻
2026-05-24 10:26:30
深夜,美伊谈判传来大消息!原油暗盘跳水,特朗普最新表态:达成协议的可能性大约占一半,要么实施更强打击,要么签署一项好的协议

深夜,美伊谈判传来大消息!原油暗盘跳水,特朗普最新表态:达成协议的可能性大约占一半,要么实施更强打击,要么签署一项好的协议

每日经济新闻
2026-05-24 00:35:07
郭艾伦小丁颁奖!清华附中16分史诗逆转回浦中学 时隔5年夺第15冠

郭艾伦小丁颁奖!清华附中16分史诗逆转回浦中学 时隔5年夺第15冠

醉卧浮生
2026-05-24 22:10:43
黎家盈带20多封信赴太空,丈夫放弃香港事业:家人付出有多大

黎家盈带20多封信赴太空,丈夫放弃香港事业:家人付出有多大

粤语音乐喷泉
2026-05-24 14:52:24
奉陪到底!中方强势取消3500亿美芯订单,马斯克:这只是个开始

奉陪到底!中方强势取消3500亿美芯订单,马斯克:这只是个开始

荒野科技
2026-05-24 12:00:06
5月24日俄乌:俄罗斯“榛树”导弹射向基辅

5月24日俄乌:俄罗斯“榛树”导弹射向基辅

山河路口
2026-05-24 18:33:00
2026-05-24 23:27:00
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68183文章数 70201关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

头条要闻

"空军一号"前屹立的礼兵发声:发动机的热浪拍打后背

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

时尚
数码
本地
公开课
军事航空

《低智商犯罪》一半惊喜,一半可惜

数码要闻

SSD价格实在太荒谬!SATA竟比NVMe贵了3倍:8TB标价2.8万元

本地新闻

用云锦的方式,打开江苏南京

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

深夜美伊谈判传来大消息 特朗普最新表态

无障碍浏览 进入关怀版