网易首页 > 网易号 > 正文 申请入驻

搜狐科技实测Claude 3:长文本能力碾压GPT-4,却被中国的脑筋急转弯难倒了

0
分享至

出品 | 搜狐科技

作者 | 郑松毅‍‍‍‍

运营编辑 | 王一晴

一石激起千层浪,OpenAI的不败神话终被打破。

昨日,OpenAI最大竞争对手Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。从官方给出的性能测试数据来看,Claude 3系列模型的表现全面碾压GPT-4,被认为是当前全球最强大模型。

该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

图源:Anthropic官方

Anthropic官方介绍,新发布的Claude 3系列模型在逻辑推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准。

目前,Claude 3 Sonnet已免费向注册用户开放公测,最强性能版本Opus需要会员升级,服务费为20美金/月,Haiku即将推出。

究竟Claude 3有多能“打”?比起GPT-4哪个更好用?也有人怀疑,Claude 3到底有没有说的这么强?

搜狐科技在第一时间完成体验,为大家悉数奉上。

Claude 3出来后,大家最先关心的是它的知识范围有多大,能不能get到最近发生的事?

结果显示,Claude 3虽比GPT-4紧跟时事些,但知识时间范围也仅到2023年8月,GPT-4是到2023年4月。

Claude 3 Opus比GPT-4究竟强在哪,有什么GPT-4做不到的它却能做到?我们不如来直接问问Claude 3。

从Claude 3 Opus的回答来看,还是非常谦虚谨慎的。在其发布后,逻辑推理能力、数学能力、文本能力、以及多模态信息处理能力被认为是它的四大看家本领,下面我们就依次摆出一些刁钻的问题来难为难为Claude 3 Opus。

逻辑推理

之前在做GPT-4和ChatGPT对比测试时,有一道脑筋急转弯同时难住了它们。让我们看看这次Claude 3 Opus表现如何。

题目是,“张三家有兄弟三人,大哥叫张强,二哥叫张富,请问老三叫什么?”(相信很多人都会抢答了,答案就是“张三”)

嗯?第一个测试就不通过,是Claude 3 Opus的逻辑推理能力没升级到位还是挑选的题目一针见血?GPT-4倒是提到了叫“张三”的可能性。

再用一道时间逻辑推理题目进行测试,Claude 3 Opus的表现还是不太尽如人意。

题目是,“我去了一个聚会,我比John先到达,David在Joe之后到达,Joe比我先到达,John在David之后到达。请问是谁第一个到达的?”(正确答案是Joe最先到达的)

Claude 3 Opus在开始推理不久就出现了明显错误,题目说David是在Joe之后到达的,但不代表David就是最后到的,与条件4“John是在David之后到的”并不冲突。

再来一道常识题。

题目是,“请问英寸、公斤、厘米、码、其中哪个不同于其他范畴?”Claude 3 Opus和GPT-4都给出了正确答案,前者给出的答案解析更详细。

数学问题

搜狐科技用经典的“青蛙跳井”问题分别测试Claude 3 Opus和GPT-4,但看起来Claude 3 Opus有点不太聪明的样子。

题目是,“一只青蛙掉进了一口深10米的井里。它白天向上爬3米,晚上会下滑2米。按照这个速度,青蛙多少天可以爬出井口?”

正确的答案应是8天,因为前七天青蛙每天爬升1米,最后一天时可以往上爬3米直接跳出井口。Claude 3 Opus在两次测试中都给出了错误的答案,而GPT-4一次回答正确。

再来一道当年刷互联网大厂面试题时遇到的经典数学问题,看看这两个模型表现如何。

题目是,“有两个已知容量分别为5升和3升的水壶,但水壶没有刻度,水源无限,请问如何才能准确地得到4升水?”

从结果来看,两个模型都给出了正确的答案。相较而言,Claude 3 Opus的解析更全面一些,但就小编的感受来说,GPT-4的解释更简单明了。

长文本能力

之前“Claude 2.1超大杯”上下文处理能力一直饱受吐槽,这一次在Claude 3系列模型上得到了系统升级。

据悉,用大海捞针(NIAH)方法来评估衡量大模型从大量数据中准确召回信息的能力,这一次,Claude 3 Opus实现了近乎完美的召回率,和超过99%的准确率。

搜狐科技在Claude 3上传了一份故事小说文档,请它回答小说中的细节问题。令人惊讶的是,Claude 3在1分钟内就读完了小说,不仅准确回答了提出的问题,还把整体故事线进行概括性梳理,复述出了故事内容。

多模态信息处理

这次Claude 3终于是把视觉能力补齐了,用户可以直接放图进去进行解析。

搜狐科技在体验了一段时间后,认为Claude 3在多模态信息处理方面与GPT-4相当,基本无差异。

让Claude 3猜猜我桌子上的冰箱贴是描绘的哪里,这种问题对它来说不在话下。

看完小编做的菜,Claude 3还给出了一些中肯的建议。

甚至还能通过图片,分析出图中的人物打球技术怎么样。

值得一提的是,Claude 3的确是在科学示意图解析方面表现的更好,这也符合官方给出的评价。

在跑了数小时测试后,搜狐科技给出的体验评价是,Claude 3在逻辑推理和数学问题方面表现欠佳,仍有待提升,多模态信息处理能力与GPT-4相当,长文本能力是其亮点。

Claude 3和GPT-4到底谁更胜一筹,这个问题也留给大家体验评论。

E

N

D

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
零跑D19开了七天,这五句话不要信了

零跑D19开了七天,这五句话不要信了

沙雕小琳琳
2026-06-27 18:53:57
金价6月28日,大家要有心理准备了,下周,金价或将迎来大风暴

金价6月28日,大家要有心理准备了,下周,金价或将迎来大风暴

时尚的弄潮
2026-06-28 10:09:53
彻底凉凉!爆火三个月的莫氏鸡煲现日销不足20只,网友:自找的

彻底凉凉!爆火三个月的莫氏鸡煲现日销不足20只,网友:自找的

雷科技
2026-06-25 18:26:47
白玉兰奖落幕:3人口碑暴涨,2人升咖,1人镀金失败,唯她被骂惨

白玉兰奖落幕:3人口碑暴涨,2人升咖,1人镀金失败,唯她被骂惨

荣亭小吏
2026-06-27 10:27:59
尴尬!穿光腿神器忘穿裙子;脏内裤挂在腰带外;裙子塞到丝袜里

尴尬!穿光腿神器忘穿裙子;脏内裤挂在腰带外;裙子塞到丝袜里

夜深爱杂谈
2026-06-27 22:06:34
感动?鸡汤?重庆八中致全体教职工的一封信(节选)

感动?鸡汤?重庆八中致全体教职工的一封信(节选)

一口娱乐
2026-06-28 03:24:56
原来他是迟蓬丈夫,怪不得能获白玉兰最佳女配,有个好丈夫太重要

原来他是迟蓬丈夫,怪不得能获白玉兰最佳女配,有个好丈夫太重要

丁丁鲤史纪
2026-06-28 12:14:15
一心上车!罗马诺:33岁扎卡明确想为阿隆索效力,桑德兰坚持高价

一心上车!罗马诺:33岁扎卡明确想为阿隆索效力,桑德兰坚持高价

砚底沉香
2026-06-28 12:13:14
对阵约旦任意球破门,梅西成为首位连续七场世界杯进球的球员

对阵约旦任意球破门,梅西成为首位连续七场世界杯进球的球员

懂球帝
2026-06-28 12:03:42
18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

不似少年游
2026-05-21 14:26:19
炸完伊朗!美国害怕了?万斯喊话德黑兰,有事儿打电话,别互炸

炸完伊朗!美国害怕了?万斯喊话德黑兰,有事儿打电话,别互炸

遁走的两轮
2026-06-27 16:37:26
普京对俄中学毕业生说:你们有“胜利者基因”,转头学校军训加码

普京对俄中学毕业生说:你们有“胜利者基因”,转头学校军训加码

桂系007
2026-06-27 20:19:30
冯小刚导演的《抓特务》为何受到冷落?孙玉良:宣传导向出了问题

冯小刚导演的《抓特务》为何受到冷落?孙玉良:宣传导向出了问题

孙玉良
2026-06-28 08:43:41
娃半夜把金锁嚼碎吞了,妈妈崩溃送医,医生:不用治,回家等吧!

娃半夜把金锁嚼碎吞了,妈妈崩溃送医,医生:不用治,回家等吧!

菁妈育儿
2026-06-25 17:49:57
德天空:19岁突尼斯前锋费尔哈特即将转投德国国家队

德天空:19岁突尼斯前锋费尔哈特即将转投德国国家队

懂球帝
2026-06-28 06:00:12
尼克松晚年坦言:他后悔当年访问中国,只因毛主席识破了他的计谋

尼克松晚年坦言:他后悔当年访问中国,只因毛主席识破了他的计谋

晓风洞察
2026-05-20 14:35:33
特朗普怕输给中国,重启“中国行动计划2.0”,专打华裔学者

特朗普怕输给中国,重启“中国行动计划2.0”,专打华裔学者

潋滟晴方DAY
2026-06-28 12:43:11
今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

今年90%的家长和“张雪峰们”都是用的AI志愿填报工具,最后反而丢掉了最大的捡漏机会

帅领留学真话
2026-06-27 09:53:57
世界杯冷知识!梅西钦点英格兰史上第一人,不是凯恩鲁尼而是他

世界杯冷知识!梅西钦点英格兰史上第一人,不是凯恩鲁尼而是他

澜归序
2026-06-28 06:58:53
发达国家,碎了一地

发达国家,碎了一地

美第奇效应
2026-06-26 23:58:22
2026-06-28 13:31:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4896文章数 9194关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

头条要闻

三队出线世界杯32强席位正式落定 伊朗在最后一刻出局

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

白玉兰奖落幕,唯她被骂惨

财经要闻

两只股票撑起的韩国股市,半年熔断 33 次

汽车要闻

蔚来ES大五座体验 全场景行李舱让你带着生活出发

态度原创

教育
艺术
房产
公开课
军事航空

教育要闻

特级教师陈红梅:锻造“讲故事+演讲”引领力

艺术要闻

15幅 乔治·莫兰迪的静物花卉特辑

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版