网易首页 > 网易号 > 正文 申请入驻

新研究发现人工智能搜索工具的平均准确率仅为60%

0
分享至

人工智能模型可能缺乏准确性,这是不争的事实。 对于开发人员来说,产生幻觉和重复错误信息一直是一个棘手的问题。 由于用例千差万别,因此很难确定与人工智能准确性相关的可量化百分比。 一个研究团队声称,他们现在已经掌握了这些数字。

Tow 数字新闻中心最近研究了八个AI搜索引擎,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。 他们测试了每种工具的准确性,并记录了工具拒绝回答的频率。

研究人员从 20 家新闻出版社(每家 10 篇)随机选择了 200 篇新闻报道。 他们确保每篇报道在使用文章摘录时都能在Google搜索中返回前三个结果。 然后,他们在每个人工智能搜索工具中执行相同的查询,并根据搜索是否正确引用了 A)文章、B)新闻机构和 C)URL 来评定准确性。

然后,研究人员根据从"完全正确"到"完全不正确"的准确度给每条搜索贴上标签。 从下图中可以看出,除了两个版本的 Perplexity 外,其他人工智能的表现都不理想。 总体而言,人工智能搜索引擎有 60% 的时间是不准确的。 此外,人工智能对这些错误结果的"信心"也强化了这些错误结果。

这项研究之所以引人入胜,是因为它以量化的方式证实了我们几年前就已经知道的事实--LLM是"史上最狡猾的骗子"。 他们以完全权威的口吻报告说,他们所说的都是真的,即使事实并非如此,有时甚至会争辩或在面对质疑时编造其他虚假的断言。

在 2023 年的一篇轶事文章中,Ted Gioia(诚实的经纪人)指出了数十条 ChatGPT 的回复,显示机器人在回复大量询问时自信地"撒谎"。 虽然有些例子是对抗性询问,但许多只是一般性问题。

即使承认自己错了,ChatGPT 也会在承认错误之后提供更多的虚假信息。 LLM 似乎被编程为不惜一切代价回答用户的每一个输入。 研究人员的数据证实了这一假设,并指出 ChatGPT Search 是唯一能回答全部 200 条文章查询的人工智能工具。 不过,它的完全准确率仅为 28%,完全不准确的时间占 57%。

ChatGPT 还不是最差的。 X 的 Grok AI 的两个版本都表现不佳,但Grok-3 Search 的准确率高达 94%。 微软的 Copilot 也没好到哪里去,因为它在 200 次查询中拒绝回答了 104 次。 在剩下的 96 个查询中,只有 16 个"完全正确",14 个"部分正确",66 个"完全错误",因此它的准确率大约为 70%。

可以说,这一切最疯狂的地方在于,制造这些工具的公司对这种缺乏准确性的情况并不透明,同时向公众收取每月 20 到 200 美元的费用。 此外,Perplexity Pro(20 美元/月)和 Grok-3 Search(40 美元/月)比其免费版本(Perplexity 和 Grok-2 Search)回答的查询正确率略高,但错误率也明显更高(上图)。

不过,并非所有人都同意这种说法。 TechRadar 的兰斯-乌拉诺夫(Lance Ulanoff)表示,在尝试了 ChatGPT Search 之后,他可能再也不会使用 Google 了。 他描述说,该工具快速、清晰、准确,界面简洁、无广告。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
43岁谢婷婷加拿大再夺网球冠军,小7岁男友场下支持,屡屡拿冠军

43岁谢婷婷加拿大再夺网球冠军,小7岁男友场下支持,屡屡拿冠军

树娃
2026-04-12 20:35:14
马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

谈史论天地
2026-02-19 12:44:34
14公斤火药被引爆,炸掉7米高内塔尼亚胡塑像,人群爆发出欢呼声!以方谴责西班牙:展现出骇人的反犹仇恨

14公斤火药被引爆,炸掉7米高内塔尼亚胡塑像,人群爆发出欢呼声!以方谴责西班牙:展现出骇人的反犹仇恨

每日经济新闻
2026-04-12 20:30:04
国军副营长起义,阴差阳错成统兵最多的八路将领,授衔结果很意外

国军副营长起义,阴差阳错成统兵最多的八路将领,授衔结果很意外

小港哎历史
2026-04-11 12:30:03
宁波奉化一汽车零配件生产厂房起火,火情已被控制,知情人称系电焊点着了废料

宁波奉化一汽车零配件生产厂房起火,火情已被控制,知情人称系电焊点着了废料

潇湘晨报
2026-04-13 17:36:24
601908,午后三分钟涨停!

601908,午后三分钟涨停!

大众证券报
2026-04-13 18:02:18
欧冠0-2绝境!巴萨全队出征马德里:亚马尔领衔 坚信翻盘

欧冠0-2绝境!巴萨全队出征马德里:亚马尔领衔 坚信翻盘

叶青足球世界
2026-04-13 19:52:28
三大邻国“倒向”中国!一个修路、一个拆墙、一个砸钱,啥信号?

三大邻国“倒向”中国!一个修路、一个拆墙、一个砸钱,啥信号?

傲傲讲历史
2026-04-04 14:56:39
深圳开发商疑似喷辣椒水驱客 中介人士:现场秩序混乱 客户不排队往里挤

深圳开发商疑似喷辣椒水驱客 中介人士:现场秩序混乱 客户不排队往里挤

新浪财经
2026-04-13 14:23:40
越来越多人得病,医生提醒:洗碗时的这几个坏习惯,看看你有吗?

越来越多人得病,医生提醒:洗碗时的这几个坏习惯,看看你有吗?

白话电影院
2026-04-09 14:32:27
马筱梅怒了!带汪宝回京后首次表态,张兰态度变了,出差“避嫌”

马筱梅怒了!带汪宝回京后首次表态,张兰态度变了,出差“避嫌”

老吴教育课堂
2026-04-13 18:11:51
钱再多有啥用!“展昭”何家劲的现状,给所有老年男性提了个醒

钱再多有啥用!“展昭”何家劲的现状,给所有老年男性提了个醒

夏末moent
2026-03-21 20:01:15
妈耶!《冰湖重生》评论区笑麻了哈哈哈哈,可惜了李昀锐

妈耶!《冰湖重生》评论区笑麻了哈哈哈哈,可惜了李昀锐

老吴教育课堂
2026-04-13 16:46:03
宁德时代盘中股价创历史新高,A股市值逼近2万亿元

宁德时代盘中股价创历史新高,A股市值逼近2万亿元

北京商报
2026-04-13 09:58:06
高云翔与发小吃天津美食,44岁满头白发,吃完主动擦桌子收拾碗筷

高云翔与发小吃天津美食,44岁满头白发,吃完主动擦桌子收拾碗筷

手工制作阿歼
2026-04-12 10:09:26
访陆结束,郑丽文乘飞机返台,拿到大礼包,对赖清德称呼变了

访陆结束,郑丽文乘飞机返台,拿到大礼包,对赖清德称呼变了

黑鹰观军事
2026-04-13 18:20:47
知情人爆料迟重瑞真实人品!见人就给100红包,无论你是什么岗位

知情人爆料迟重瑞真实人品!见人就给100红包,无论你是什么岗位

谈史论天地
2026-04-13 12:48:18
1979年我救了一名新兵,他后来晋升副师,帮我两个孩子安排了工作

1979年我救了一名新兵,他后来晋升副师,帮我两个孩子安排了工作

静若梨花
2026-04-13 13:22:55
再次提醒大家:出门在外尽量不要和陌生人发生冲突!

再次提醒大家:出门在外尽量不要和陌生人发生冲突!

夜深爱杂谈
2026-04-12 17:32:43
研究生迎来好消息!2026年7月新政将至,学子直言:幸福太突然了

研究生迎来好消息!2026年7月新政将至,学子直言:幸福太突然了

复转这些年
2026-04-11 21:17:18
2026-04-13 20:52:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
67354文章数 70156关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

头条要闻

媒体:欧尔班败选不仅是一国之事 牵扯到与中国的关系

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

今夜,出大事了,3种结果

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

艺术
手机
旅游
本地
健康

艺术要闻

22位中国当代名家油画作品

手机要闻

OPPO影像机皇来了!双2亿像素+10倍光变,外观也被公布了

旅游要闻

免费、出片、治愈系!这片月见草花海才是春日顶配

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版