网易首页 > 网易号 > 正文 申请入驻

新研究发现人工智能搜索工具的平均准确率仅为60%

0
分享至

人工智能模型可能缺乏准确性,这是不争的事实。 对于开发人员来说,产生幻觉和重复错误信息一直是一个棘手的问题。 由于用例千差万别,因此很难确定与人工智能准确性相关的可量化百分比。 一个研究团队声称,他们现在已经掌握了这些数字。

Tow 数字新闻中心最近研究了八个AI搜索引擎,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。 他们测试了每种工具的准确性,并记录了工具拒绝回答的频率。

研究人员从 20 家新闻出版社(每家 10 篇)随机选择了 200 篇新闻报道。 他们确保每篇报道在使用文章摘录时都能在Google搜索中返回前三个结果。 然后,他们在每个人工智能搜索工具中执行相同的查询,并根据搜索是否正确引用了 A)文章、B)新闻机构和 C)URL 来评定准确性。

然后,研究人员根据从"完全正确"到"完全不正确"的准确度给每条搜索贴上标签。 从下图中可以看出,除了两个版本的 Perplexity 外,其他人工智能的表现都不理想。 总体而言,人工智能搜索引擎有 60% 的时间是不准确的。 此外,人工智能对这些错误结果的"信心"也强化了这些错误结果。

这项研究之所以引人入胜,是因为它以量化的方式证实了我们几年前就已经知道的事实--LLM是"史上最狡猾的骗子"。 他们以完全权威的口吻报告说,他们所说的都是真的,即使事实并非如此,有时甚至会争辩或在面对质疑时编造其他虚假的断言。

在 2023 年的一篇轶事文章中,Ted Gioia(诚实的经纪人)指出了数十条 ChatGPT 的回复,显示机器人在回复大量询问时自信地"撒谎"。 虽然有些例子是对抗性询问,但许多只是一般性问题。

即使承认自己错了,ChatGPT 也会在承认错误之后提供更多的虚假信息。 LLM 似乎被编程为不惜一切代价回答用户的每一个输入。 研究人员的数据证实了这一假设,并指出 ChatGPT Search 是唯一能回答全部 200 条文章查询的人工智能工具。 不过,它的完全准确率仅为 28%,完全不准确的时间占 57%。

ChatGPT 还不是最差的。 X 的 Grok AI 的两个版本都表现不佳,但Grok-3 Search 的准确率高达 94%。 微软的 Copilot 也没好到哪里去,因为它在 200 次查询中拒绝回答了 104 次。 在剩下的 96 个查询中,只有 16 个"完全正确",14 个"部分正确",66 个"完全错误",因此它的准确率大约为 70%。

可以说,这一切最疯狂的地方在于,制造这些工具的公司对这种缺乏准确性的情况并不透明,同时向公众收取每月 20 到 200 美元的费用。 此外,Perplexity Pro(20 美元/月)和 Grok-3 Search(40 美元/月)比其免费版本(Perplexity 和 Grok-2 Search)回答的查询正确率略高,但错误率也明显更高(上图)。

不过,并非所有人都同意这种说法。 TechRadar 的兰斯-乌拉诺夫(Lance Ulanoff)表示,在尝试了 ChatGPT Search 之后,他可能再也不会使用 Google 了。 他描述说,该工具快速、清晰、准确,界面简洁、无广告。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼联中场重建瞄准葡萄牙新星,费南德斯成夏窗目标

曼联中场重建瞄准葡萄牙新星,费南德斯成夏窗目标

热血体育社
2026-05-26 01:09:50
新能源汽车维修遭垄断,4400万车主选择权被锁

新能源汽车维修遭垄断,4400万车主选择权被锁

第一财经资讯
2026-05-11 16:52:11
最佳二阵5人场均26+!一阵有多强?三阵争议最大,华子成最大遗珠

最佳二阵5人场均26+!一阵有多强?三阵争议最大,华子成最大遗珠

你的篮球频道
2026-05-25 08:30:32
上面有解放军,下有公安特警,为什么我国还死抓着武警不放?

上面有解放军,下有公安特警,为什么我国还死抓着武警不放?

阿芒娱乐说
2026-05-25 08:28:21
金球奖反转!最大热门一夜间易主,登贝莱不稳,姆巴佩也难比

金球奖反转!最大热门一夜间易主,登贝莱不稳,姆巴佩也难比

祥谈体育
2026-05-25 21:14:17
谈判破裂?中方拒绝美军三号人物访华,国防部强硬表态:必须统一

谈判破裂?中方拒绝美军三号人物访华,国防部强硬表态:必须统一

小小科普员
2026-05-25 15:05:04
电视剧收视率排行榜,《主角》跌至第三,第一收视高达2.133%

电视剧收视率排行榜,《主角》跌至第三,第一收视高达2.133%

圆头讲电影
2026-05-25 13:00:19
血管斑块不是突然长出来的!6个习惯天天做,血管慢慢“通”回来

血管斑块不是突然长出来的!6个习惯天天做,血管慢慢“通”回来

芹姐说生活
2026-05-22 16:15:25
张嘉译宁可赔千万也要换掉她,被半个娱乐圈封杀的李梦,如今怎样

张嘉译宁可赔千万也要换掉她,被半个娱乐圈封杀的李梦,如今怎样

琴琴有氧运动
2026-05-23 16:24:15
中国和塔吉克斯坦没有深仇大恨,为何两国边界却一直是未定国界?

中国和塔吉克斯坦没有深仇大恨,为何两国边界却一直是未定国界?

老达子
2026-05-25 06:55:03
马刺大胜雷霆,赛后还有4个好消息,天王山之战奥利尼克要来了

马刺大胜雷霆,赛后还有4个好消息,天王山之战奥利尼克要来了

以茶带书
2026-05-25 14:31:22
总决赛第一场三名外籍裁判吹罚,第二场后变为2洋哨+1中方裁判

总决赛第一场三名外籍裁判吹罚,第二场后变为2洋哨+1中方裁判

北青网-北京青年报
2026-05-25 17:58:05
稻城亚丁景区回应一博主驾车进入景区:当班主管违规定擅自放行

稻城亚丁景区回应一博主驾车进入景区:当班主管违规定擅自放行

澎湃新闻
2026-05-25 22:14:27
明朝最惨首辅:67岁被当猪抬上刑场,唯一被斩首的内阁大佬

明朝最惨首辅:67岁被当猪抬上刑场,唯一被斩首的内阁大佬

小豫讲故事
2026-05-22 06:00:13
私吞别人家产,并霸占人家二姨太,上海军代表乐得逍遥,终被枪决

私吞别人家产,并霸占人家二姨太,上海军代表乐得逍遥,终被枪决

真实异闻
2024-10-08 21:47:41
最后关头,特朗普变卦没有签字,中方已收到消息,美国不想当老二

最后关头,特朗普变卦没有签字,中方已收到消息,美国不想当老二

黑鹰观军事
2026-05-24 01:16:17
风水先生为什么一般都在农村?网友回答揭示答案!

风水先生为什么一般都在农村?网友回答揭示答案!

时尚的弄潮
2026-05-26 00:23:53
1-0!中超最大黑马醒了:14轮仅2败坐稳第2,海牛三连败跌入深渊

1-0!中超最大黑马醒了:14轮仅2败坐稳第2,海牛三连败跌入深渊

海阔山遥YAO
2026-05-25 23:02:12
蜂蜜被点名!医生提醒:糖尿病患者常喝蜂蜜水很快迎来4个改变!

蜂蜜被点名!医生提醒:糖尿病患者常喝蜂蜜水很快迎来4个改变!

芹姐说生活
2026-05-20 23:42:03
异性对接吻一定要慎重,一旦“接吻”了,关系就会发生重大变化!

异性对接吻一定要慎重,一旦“接吻”了,关系就会发生重大变化!

皓皓情感说
2026-05-15 12:29:38
2026-05-26 01:44:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68206文章数 70201关注度
往期回顾 全部

科技要闻

华为:没有先进光刻机也能造出高端芯片

头条要闻

伊朗媒体披露最高领袖就医情况

头条要闻

伊朗媒体披露最高领袖就医情况

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

起底煤矿“暗面”:假整改、假数据

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

健康
艺术
数码
教育
旅游

几百块一瓶的外泌体精华,涂脸上是“智商税”吗?

艺术要闻

他把葡萄画成了美少女

数码要闻

荣耀600系列发布:国补后2294.15元起 续航影像全升级

教育要闻

罚抄10遍被投诉,一个电话让全班没了作业,孩子就毁这类家长手里

旅游要闻

美丽中国行|“无废细胞”激活绿色基因——三亚探索旅游城市可持续发展新路

无障碍浏览 进入关怀版