网易首页 > 网易号 > 正文 申请入驻

五大AI聊天机器人盲测!ChatGPT未能夺冠,最终赢家竟来自这家“小公司”

0
分享至


智东西
编译 陈骏达
编辑 Panken

智东西5月27日消息,近日,《华尔街日报》对ChatGPT、Claude、Copilot、Gemini和Perplexity五大AI聊天机器人进行了一次全面的盲测。最终,Perplexity综合排名第一,ChatGPT紧随其后,微软的Copilot表现垫底。

本次测试的侧重点为AI聊天机器人解决实际问题和完成日常任务的能力,反映了它们在真实场景中的表现。《华尔街日报》的测试人员设计了一系列提示词来测试流行的使用案例,包括代码能力测试、健康咨询和理财问题。评判的标准包括准确性、有用性和整体质量。《华尔街日报》邀请了相关领域的专家以盲测的形式开展测试。接下来就让我们来看看这些AI聊天机器人在不同问题上的具体表现吧。

为了使用更全面的功能,《华尔街日报》在测试中使用了20美元的付费版,包括最新发布的OpenAI ChatGPT GPT-4o模型和谷歌Gemini 1.5 Pro。

美国大模型独角兽Anthropic是OpenAI的一大劲敌,此次测试中,它开发的聊天机器人Claude在写作类任务上的表现尤为突出;集成了OpenAI技术的微软AI助手Copilot则在创意写作和总结方面展现出优势。

美国AI搜索独角兽Perplexity AI打造的Perplexity尤其令人惊喜。它在总结、代码和时事类问题上取得最佳表现,在大部分单项测试上都取得前三名的成绩。

值得一提的是,这是英伟达创始人兼CEO黄仁勋最常用的AI工具。凭借在生成式AI搜索产品上的创新,Perplexity AI喜提“谷歌杀手”称号,今年月活用户数突破1000万大关。根据数据研究分析平台Pitchbook,Perplexity AI团队规模不到50人。

测试中,更新后的ChatGPT意外地未能在测试中拔得头筹,反倒是更为小众的的Perplexity在九项测试中的三项上排名第一,并获得本次测试的冠军。Anthropic的Claude在部分问题上表现不错,但由于无法访问网页且响应速度较慢,最终名列第四。

来自谷歌的Gemini和来自微软的Copilot在本次测试中表现不佳,分列第三和第五。微软Copilot更是在五项测试中垫底,多次忽略提示词中的关键信息,是本次测试中表现最差的AI聊天机器人。

一、健康类问题:Gemini让你“凭感觉决定要不要孩子”

AI聊天机器人提供的错误健康建议可能会危害用户的健康。测试人员共提出了五个问题,分别涉及怀孕、减肥、抑郁以及慢性和突发症状。很多答案听起来都差不多。这一部分的评委是《华尔街日报》健康专栏作家Sumathi Reddy,她对答案的完整性、准确性和细节问题进行了考察。


例如,当问到怀孕的最佳年龄时,Gemini给出了一个简短而笼统的建议,称“怀孕的最佳时机,是你自己觉得有信心并准备好养育孩子的时候”。而Perplexity的回答则更深入,甚至提出了伴侣关系和经济稳定性等因素。尽管如此,Gemini还是对其他问题做出了高质量的回答,最终仅次于该类别的冠军ChatGPT。ChatGPT的回答在最近的GPT-4o更新后有所改进。


▲健康类问题排名

二、理财类问题:ChatGPT和Copilot表现欠佳

在这项测试中,测试人员向AI聊天机器人提出了三个问题,分别是利率、退休储蓄和遗产继承。《华尔街日报》的个人理财编辑Jeremy Olshan提出了这些问题,并根据建议的清晰度、全面性和实用性进行了评估。


在这方面,ChatGPT和Copilot表现欠佳。Claude对选择罗斯个人退休账户(Roth IRA,一种增值免税的退休账户)还是传统个人退休账户的争论给出了最佳答案。而Perplexity则对高收益储蓄账户与定期存款做出了最好的权衡。类别冠军Gemini对何时从继承的100万美元个人退休账户中提取资金的问题给出了最佳回答。Gemini在回答中强调了在没有专业指导的情况下不要匆忙提取资金。


▲理财类问题排名

三、烹饪类问题:Copilot完全无视忌口

AI有望在厨房里为人类提供帮助。它能让冰箱和储藏室的混乱场面变得井井有条。《华尔街日报》的个人技术产品编辑Wilson Rothman是一位狂热的烹饪爱好者,他向AI聊天机器人抛出了一组随机食材,看看它们能做出什么花样。该类别的冠军ChatGPT提供了一份既有创意又切合实际的菜单(芝士猪肉馅烤苹果配羽衣甘蓝沙拉和巧克力酥饼)。Perplexity提供了详细的烹饪步骤和巧妙的菜单,给测试人员留下了深刻印象。

接下来,测试人员要求AI聊天机器人提供一份巧克力甜点的食谱,需要满足多种忌口要求。


Gemini一举夺魁,甚至还推荐了一些额外的配料,比如不含乳制品的蛋糕淋面。Copilot加入了提示词中明确要求不应包含的鸡蛋和黄油,因此在这项测试中落败。


▲烹饪类问题排名

四、职场写作类问题:Perplexity、Gemini和Claude势均力敌

在职场写作中,语气和细节很重要。在向老板提出加薪的要求时可不能油嘴滑舌。撰写招聘启事时,也需要列出要点来吸引潜在的应聘者。测试中,《华尔街日报》告诉AI聊天机器人,他们要招聘一名提示工程师,与《华尔街日报》的个人技术产品团队合作。


Perplexity撰写的招聘通知将新闻行业的要求和对AI的了解完美地结合在了一起。评委编辑Shara Tibken指出,Copilot的问题在于它根本没有提到提示工程。Perplexity、Gemini和Claude之间的竞争十分激烈,Claude最终凭借适合职场风格的新生儿通告(birth announcement)取胜。


▲职场写作类问题排名

五、创意写作类问题:Copilot扳回一城

本次测试中最大的意外,当属职场写作能力和创意写作能力之间的差异。Copilot的职场写作能力倒数第一,但在创意写作方面却是最有趣、最聪明的。

测试中要求AI聊天机器人写一段以布偶为主角的婚礼祝酒词,还要虚构一场特朗普和拜登之间的街头斗殴。有了Copilot,笑话层出不穷。Claude排名第二,它对两位总统候选人都进行了巧妙的讽刺。


Perplexity在这项测试中罕见地出现事物。它错误地引用了2011年的音乐剧《布偶团》中的一句歌词。


▲创意写作类问题排名

六、总结类问题:Perplexity能速读YouTube字幕

对于刚刚接触AI聊天机器人的用户来说,总结功能可能是最适合的尝试。总结功能用处很大,而且不太可能造成不可预见的错误。因为本次测试中使用的是付费服务,所以测试人员可以上传较大的文本、PDF文档和网页。

大多数情况下,即便是高级版Claude账户也无法处理网页链接。Anthropic公司的产品经理Scott White说,“我们的团队正在提升Claude的运行速度,扩大它的知识库,完善它理解各种内容并与之交互的能力”。


名人的维基百科页面可能很冗长,因此测试人员要求AI聊天机器人提供披头士乐队成员Paul McCartney的维基百科页面摘要。有些AI聊天机器人提供了简短的介绍,其中包含了披头士乐队的一些常见信息。Copilot的回答采用了提纲的形式,并包含了一些鲜为人知的趣事。

该类别的冠军得主Perplexity一直都能很好地概括事物,它甚至快速阅读了一个YouTube视频的字幕。


▲总结类问题排名

七、时事类问题:GPT-4o让ChatGPT的表现显著提升

这部分测试比看上去要复杂一些,因为并非所有AI聊天机器人都能访问网络。测试人员询问了今年夏天的音乐会阵容,以及即将举行的总统大选的当前形势。


凭借全面的推理和可靠的来源,Perplexity稳居榜首。ChatGPT在第一次测试时表现不佳,但GPT-4o的升级使它跃居第二。Gemini拒绝回答测试人员关于总统选举的问题。


▲时事类问题排名

八、代码类问题:各个AI聊天机器人表现都相当不错

测试人员还对AI聊天机器人的代码技能和速度进行了评估。在代码技能方面,测试人员请来了《华尔街日报》数据记者Brian Whitton,他提供了三个令人头疼的问题,涉及JavaScript函数、网站样式和网络应用程序。根据Whitton的盲评,所有机器人在代码方面的表现都相当不错。最终Perplexity成功胜出,ChatGPT和Gemini紧随其后。


▲代码类问题排名

九、速度测试:Claude和Perplexity显著慢于其他AI聊天机器人

为进行速度测试,测试人员对之前的几个测试问题进行了计时,并加入了另一个问题,“用五句话解释爱因斯坦的相对论”。测试结果显示,各个AI聊天机器人的答案本身各不相同。就响应时间而言,采用GPT-4o的ChatGPT仅用时5.8秒,是最快的AI聊天机器人。在整个测试过程中,Claude和Perplexity都比其他三个AI聊天机器人慢得多。


▲速度测试排名

结语:主流AI聊天机器人表现各有千秋,Perplexity力压其它明星产品夺魁

本次测试显示,每个AI聊天机器人都有自己独特的优点和缺点,因此都值得探索。测试人员没有看到明显的错误和幻觉。没有任何AI聊天机器人在测试过程中犯下意料之外的严重错误,或者胡编乱造。它们大多提供了有用的答案,也避免了争议。这表明目前大部分AI聊天机器人都能提供及格线以上的表现,整体能力有所提升。


▲测试排名汇总

让人意外的是,尽管ChatGPT进行了大规模的更新,名气也很大,但它并没有在本次测试中领跑。相反,知名度较低的Perplexity成为了本次测试的冠军。Perplexity AI的首席商务官Dmitry Shevelenko说,“我们针对回答的简洁性进行了优化,这让模型能够辨别出回答中最关键的信息”。

《华尔街日报》也指出,现在Copilot和Gemini的表现不尽如人意。但是在未来,微软和谷歌这两家大型科技公司的AI聊天机器人可能会占据优势。谷歌和微软都拒绝对此发表评论。但最近微软告诉《华尔街日报》,GPT-4o将很快被集成到Copilot中,这可能会提高Copilot的性能。

Perplexity在本次测试中的胜利,也证明了坐拥大量算力本身并不能保证企业可以开发出表现最佳的AI聊天机器人产品,在特定方向上的优化也能产生出其不意的效果。

来源:《华尔街日报》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太意外了,仁爱礁坐滩军舰之所以没有快速解体,居然是它在搞鬼!

太意外了,仁爱礁坐滩军舰之所以没有快速解体,居然是它在搞鬼!

老妖的针见
2024-06-14 14:20:02
历史会记住这一天

历史会记住这一天

西楼饮月
2024-06-16 20:49:06
嘉德勋章日:凯特未出席,苏菲成颜值担当,查尔斯总算穿对了袍子

嘉德勋章日:凯特未出席,苏菲成颜值担当,查尔斯总算穿对了袍子

元爸体育
2024-06-18 01:28:05
炒股16年心得:用最简单的炒股方法,只买一种股票,简单却很赚钱

炒股16年心得:用最简单的炒股方法,只买一种股票,简单却很赚钱

股经纵横谈
2024-05-29 18:19:49
一场颠覆全国格局的巨变已经发生!

一场颠覆全国格局的巨变已经发生!

米筐投资
2024-06-17 07:04:11
罗冠聪被悬赏及撤销护照后再遭暴击,港府决不容忍

罗冠聪被悬赏及撤销护照后再遭暴击,港府决不容忍

阿离家居
2024-06-17 23:14:12
最高院:借职业放贷人钱的合同无效,不用还息,已还的可抵本金!

最高院:借职业放贷人钱的合同无效,不用还息,已还的可抵本金!

周军律师聊案子
2024-06-17 10:26:07
“取款需派出所同意”引发热议 记者探访多地银行:大额取现多需预约、核实用途

“取款需派出所同意”引发热议 记者探访多地银行:大额取现多需预约、核实用途

每日经济新闻
2024-06-17 22:09:03
小米米家吸管杯上架有品众筹:316L 不锈钢内胆、1L 容量,99 元

小米米家吸管杯上架有品众筹:316L 不锈钢内胆、1L 容量,99 元

IT之家
2024-06-17 22:42:15
突然闭店!连锁品牌!无锡3家…

突然闭店!连锁品牌!无锡3家…

无锡eTV全媒体
2024-06-17 20:25:08
记者:巴西中场爱德华多-恩里克已确定离开青岛西海岸

记者:巴西中场爱德华多-恩里克已确定离开青岛西海岸

懂球帝
2024-06-17 20:03:21
“中国跑酷元老”张磊因心脏病去世,年仅39岁

“中国跑酷元老”张磊因心脏病去世,年仅39岁

直播吧
2024-06-17 16:08:10
没有比x生活更好用的医生了吧!

没有比x生活更好用的医生了吧!

性学研究僧
2024-06-17 11:19:17
初二女儿端午节轻生,父亲看着两箱试卷痛哭:我知道问题所在了!

初二女儿端午节轻生,父亲看着两箱试卷痛哭:我知道问题所在了!

青栀伊人
2024-06-15 22:00:45
3-0!欧洲杯首场冷门,前中超外援世界波,五大联赛球星集体失常

3-0!欧洲杯首场冷门,前中超外援世界波,五大联赛球星集体失常

环太平洋老正太
2024-06-17 22:52:55
今天是6月17日深夜,刚刚得知一个重要消息,将要来大动作吗

今天是6月17日深夜,刚刚得知一个重要消息,将要来大动作吗

股市皆大事
2024-06-17 19:48:32
8人在冷藏车内身亡后续:媒体公布更多细节,她们本可逃过一劫!

8人在冷藏车内身亡后续:媒体公布更多细节,她们本可逃过一劫!

古希腊掌管松饼的神
2024-06-17 16:05:17
男人一天最多做几次?连续发射的危害你知道吗?

男人一天最多做几次?连续发射的危害你知道吗?

桃小夭
2024-06-17 08:56:59
第一次性生活有多痛?进不去怎么办

第一次性生活有多痛?进不去怎么办

喜马拉雅主播暮霭
2024-06-12 09:53:49
笑不活了,中俄免签的第一批受害者出现了,要被评论区笑死了

笑不活了,中俄免签的第一批受害者出现了,要被评论区笑死了

奇特短尾矮袋鼠
2024-06-07 15:54:13
2024-06-18 03:44:49
智东西
智东西
聚焦智能变革,服务产业升级。
8614文章数 116489关注度
往期回顾 全部

科技要闻

为什么你的iPhone,肯定用不上"苹果AI"?

头条要闻

欧洲杯-卢卡库屡失良机两进球被吹 比利时0-1斯洛伐克

头条要闻

欧洲杯-卢卡库屡失良机两进球被吹 比利时0-1斯洛伐克

体育要闻

飞翔的斗牛士 如今也迎来最后一舞

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

人均养老金上调3% 怎么年轻人吵翻了?

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

健康
数码
亲子
教育
军事航空

晚餐不吃or吃七分饱,哪种更减肥?

数码要闻

苹果 macOS 14.6 开发者预览版 Beta 发布

亲子要闻

弟弟用力掐姐姐的脸,姐姐一声不吭看了一眼妈妈,站起来一顿操作

教育要闻

时间越来越少了,还有一道压轴题目,没做完的小朋友手心都出汗了

军事要闻

内塔尼亚胡宣布战时内阁已解散

无障碍浏览 进入关怀版