网易首页 > 网易号 > 正文 申请入驻

碾压GPT-4吹牛了!一手评测Claude 3最强版本Opus:多模态能力略差,做数学题实强

0
分享至

  作者|杨文

  来源|AI先锋官

  先锋官有话说:

  产品名称:Claude 3 Opus

  总体评价:★★★★☆

  易用性:★★★★☆

  功能性:★★★★☆

  创新性:★★★★☆

  推荐功能:文字处理、数学推理

  最近AI圈卷疯了,小编手里的选题,写不完,根本写不完。

  昨晚,由几位OpenAI 前员工创立的 AI 公司 Anthropic 推出了新的Claude 3系列模型,并称其是目前市面上速度最快、性能最卓越的人工智能模型。

  网友们纷纷点评“全球最强大模型一夜易主,GPT-4时代终结!”

  产品介绍

  Anthropic发布了新一代大语言模型Claude 3系列,包括Claude 3 Opus(著作)、Sonnet(十四行诗)和Haiku(俳句)三种规模,分别代表了超大杯、大杯和中杯。

  Anthropic声称,最强大的Claude 3 Opus模型在行业基准测试中超越了OpenAI的GPT-4和谷歌的Gemini Ultra,尤其在本科水平的知识、研究生水平的推理以及基础数学方面更是展现出了卓越的能力。

  此外,Claude 3还具备视觉识别能力,能够处理包括照片、图表和技术图纸等多种视觉资料。

  Claude 3的主要功能

  1.增强的多语言能力:Claude 3模型在处理非英语语言方面有所提升,能够更好地理解和生成西班牙语、日语和法语等语言的内容。

  2.长文本处理能力:Claude 3模型家族提供了200K的上下文窗口,并且能够处理超过100万token的输入,有助于更好地理解和记忆长文本信息。

  3.视觉处理能力:Claude 3模型具备处理各种视觉格式的能力,包括照片、图表、图形和技术图示等文件。

  4.实时响应能力:模型能够支持实时的客户聊天、自动完成和数据提取任务,提供近乎即时的结果。

  5.减少拒绝回复:与之前的模型相比,Claude 3在理解请求方面更加细腻,减少了在系统边界附近不必要的拒绝。

  6.提高准确性:Claude 3模型在处理复杂、事实性问题时的准确性有所提高,减少了错误答案的产生。

  7.结构化输出:Claude 3模型在生成JSON等流行结构化输出方面有所改进,简化了自然语言分类和情感分析等用例的指令。

  8.更易于使用:Claude 3模型更擅长遵循复杂的多步骤指令,并且能够更好地遵循品牌声音和响应指南。

  每个模型的具体特点

  Claude 3 Opus:最智能的模型,适用于高度复杂的任务,如任务自动化、研发和策略分析。

  Claude 3 Sonnet:在智能和速度之间提供平衡,适合企业工作负载,如数据处理和客户互动。

  Claude 3 Haiku:最快的模型,适用于需要即时响应的场景,如内容审核和节省时间的任务。

  相较于Opus,Sonnet和Haiku两款模型在参数规模和使用成本上更为亲民。

  链接直达

  目前,用户可免费使用Claude 3 Sonnet模型。而最强的Opus版本,则需要付费订阅,价格为20美元/月。Haiku 模型即将推出。

  Claude 3 Sonnet模型:

  https://claude.ai/chats

  -5-

  一手评测:

  多模态能力略差,文字处理、数学推理实强

  既然网友们声称Claude 3超越了GPT-4,咱们就让Claude 3最强版本Opus和GPT-4好好较量一番。

  (温馨提示:以下测评均使用英文,然后翻译为中文。)

  先看这俩大模型的界面。说实话,小编很喜欢Claude 3的界面。

  与GPT-4比起来,Claude 3的界面简洁中透着美感。最上方是LOGO,下面依次是欢迎语、问题输入框以及Claud3 最新能力的图文介绍,最下面是历史记录。

  无论是功能设置还是配色,都简洁大方,一应俱全。

  废话不多说,咱们来上干货。

  一、多模态能力:GPT-4仍遥遥领先

  此次Claude 3最受关注的就是具备处理各种视觉格式的能力,包括照片、图表、图形和技术图示等文件。

  Round1:理解和处理图片能力

  小编上传了一张小时候看过的动画片大力水手的照片,问:这是哪个卡通人物?

  Claude 3Opus的回答:

  GPT-4的回答:

  这俩大模型都回答正确,不过Opus回答得更细致,还把画面描述了一遍。

  这一局,Opus略胜一筹。

  小编又上传了一张较为潦草的英文手写字迹,问:这上面写了什么?

  Claude 3Opus的回答:

  GPT-4的回答:

  虽然二者都能识别图片中的文字,但很遗憾,它们都没准确识别图中涂改过的单词“render”。

  这一局,二者半斤八两。

  Round2:画图能力

  小编让这俩大模型分别画一只戴着耳机的小猫。

  Claude 3Opus的回答:

  GPT-4的回答:

  一提到画图,Opus上来就道歉,无法绘制、生成、编辑、操作或创建图像。目前,它只具备感知和分析图片的能力。

  而GPT-4虽然生成的图片比较丑,但起码它有这能力。

  很明显,这局GPT-4赢了。

  Round 3:语音“朗读”功能

  眼瞅着Claude 3的“挑衅”,OpenAI终于坐不住了,在社交平台上发布了ChatGPT具有语音朗读的功能。

  “ChatGPT现在可以读取响应。在iOS或Android上,点击并按住消息,然后点击“朗读”。我们也开始在网络上滚动——点击消息下方的“朗读”按钮。”

  小编看热闹不嫌事大,直接把这张图喂给了Opus,问:这是什么功能?你有这种功能吗?

  Claude 3Opus回答:

  Opus是真实诚,坦言自己的技能集中于分析图像和进行基于文本的对话,不具备这种文本转语音的功能。

  这一局,GPT-4赢了。

  Round 4:视频处理能力

  小编想上传一段Sora生成的猛犸象视频,并问:视频中有几只猛犸象?

  Claude 3Opus的回答:

  GPT-4的回答:

  Opus直接无法上传视频文件,更别提回答问题了。

  GPT-4不仅能上传视频文件,也能分析出视频的时长。只不过,它无法统计视频中的猛犸象数量。

  这一局,仍是GPT-4胜。

  二、数学推理能力:Opus更胜一筹

  小编从北京市2023年中考数学真题中选了几道,分别来测试这俩大模型。

  Round1:若关于x的一元二次方程x2-3x+m=0有两个相等的实数根,则实数m的值是多少?正确答案应该选C,9/4

  Claude 3Opus的回答:

  GPT-4的回答:

  Opus回答正确,GPT-4则选了B,算出-9/4,回答错误。

  这一局,Opus赢。

  Round2:已知x+2y-1=0,求代数式(2x+4y)/(x2+4xy+4y2)的值。正确答案是2。

  Claude 3Opus的回答:

  GPT-4的回答:

  Opus回答正确。

  而GPT-4一顿操作猛如虎,写了一堆看不懂的解题过程,最后答案算出个x。

  这一局,Opus赢。

  Round3:某珠宝店失窃,甲、乙、丙、丁四人涉嫌被拘审。四人的口供如下:

  甲:案犯是丙。

  乙:丁是案犯。

  丙:如果我作案,那么丁是主犯。

  丁:作案的不是我。

  四个口供中只有一个是假的。

  如果以上断定为真,则以下哪项是真的?( )

  A.说假话的是甲,作案的是乙

  B.说假话的是丁,作案的是丙和丁

  C.说假话的是乙,作案的是丙

  D.说假话的是丙,作案的是丙

  正确答案:B

  Claude 3Opus的回答:

  GPT-4的回答:

  这道题目俩大模型都给出了正确答案,但Opus的回答更简单直接,而GPT-4分析了一通,把小编绕的云里雾里。

  三、文字处理能力:Opus赢麻了

  Round1:Why in the romance of The Three kingdoms Zhuge Liang could not break Kong Ming's empty city scheme?(为什么《三国演义》中的诸葛亮破不了孔明的空城计?)

  Claude 3Opus的回答:

  GPT-4的回答:

  这俩大模型都指出了这道题目的问题所在——诸葛亮和孔明是同一个人。

  但是,在细节上,Opus回答更准确,GPT-4则有一些错误。例如,GPT-4认为罗贯中和诸葛亮是同一个人;诸葛亮在城楼上弹古琴,而非琵琶。

  这一局,Opus略胜一筹。

  Round2:In the Romance of The Three Kingdoms, why did Lu Bu flirt with Lin Daiyu?Who was Lu Bu flirting with?(三国演义中,吕布为何调戏林黛玉?吕布调戏的是谁?)

  Claude 3Opus的回答:

  GPT-4的回答:

  这俩大模型都非常默契的认为,吕布不可能调戏林黛玉,因为这是两个不同文学作品中的人物。

  不过,对于“吕布到底调戏的是谁?”这一问题,Opus竟编出来一个燕夫人,难道Opus和小编读的不是同一本《三国演义》?

  GPT-4似乎更了解中国文化,对吕布和貂蝉的戏码如数家珍。

  这一局,GPT-4胜。

  Round3:小编上传了一份12万字的PDF文档,问:How many topics does this document cover? What are they?(这份文档介绍了几个话题?分别是什么?)

  Claude 3Opus的回答:

  GPT-4的回答:

  这份12万字的文档,涉及人类永生、人工只能、火箭技术、氢弹、芯片等多方面的科普内容。

  从回答来看,Opus是把整个文档全部读完了进行的总结,回答出芯片、光刻机、火箭等主题,但而GPT-4似乎只阅读完了第一部分人类永生与衰老。

  这一局,Opus完胜。

  -6-

  总结

  从多模态能力上来说,Claude 3Opus只会看图,不会画图,也没有视频处理和语音处理的能力,而GPT-4则更胜一筹。

  从数学推理能力上来说,Claude 3Opus做数学题、推理的本事确实比GPT-4强,不过高中数学题还是容易掉链子。

  从文字处理能力上来说,Claude 3Opus绝对更胜一筹。

  Claude 3每次能够处理大约15万个单词的内容,这相当于处理一本长篇巨著,如《白鲸记》(Moby Dick)或《哈利波特与死亡圣器》(Harry Potter and the Deathly Hallows)的内容。

  相比之下,ChatGPT的单次处理能力大约为3000个单词。

  换句话说,Claude 3单词处理能力是ChatGPT近50倍。

  在数学推理和文字处理方面,Claude 3Opus确实厉害,但由此淘汰掉GPT-4还为时尚早,起码多模态能力方面就差一些。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着火箭三连胜,快船惨败,湖人逆转,西部排名乱了,火箭回前4

随着火箭三连胜,快船惨败,湖人逆转,西部排名乱了,火箭回前4

体育一点就通
2026-01-21 16:18:34
李亚鹏确认,靠卖北京房子和直播卖茶具,5000万债务已还清!

李亚鹏确认,靠卖北京房子和直播卖茶具,5000万债务已还清!

荆楚寰宇文枢
2025-12-31 21:55:47
考古王菲李亚鹏的微博,竟然诡异的磕到了

考古王菲李亚鹏的微博,竟然诡异的磕到了

金牌舆情官
2026-01-20 21:19:04
卡扎菲死前惨状:被扇耳光吐口水,对暴打他的士兵留下遗言

卡扎菲死前惨状:被扇耳光吐口水,对暴打他的士兵留下遗言

旧时楼台月
2026-01-21 12:35:15
大瓜!闫学晶“大校军衔”被实锤造假,十年假大校现形记!

大瓜!闫学晶“大校军衔”被实锤造假,十年假大校现形记!

老特有话说
2026-01-20 15:48:09
马斯克目前财富达7800亿美元 领先第二近5100亿美元

马斯克目前财富达7800亿美元 领先第二近5100亿美元

手机中国
2026-01-20 17:09:17
亲弟弟强奸追杀妻子,丈夫发声

亲弟弟强奸追杀妻子,丈夫发声

中国新闻周刊
2026-01-20 18:42:33
83年,乔冠华与章含之在家中拍了最后一张合影,乔的笑容有些勉强

83年,乔冠华与章含之在家中拍了最后一张合影,乔的笑容有些勉强

历史甄有趣
2026-01-04 09:30:24
取代杜锋?CBA最强主教练示好广东队,朱芳雨敲定“换帅”人选

取代杜锋?CBA最强主教练示好广东队,朱芳雨敲定“换帅”人选

绯雨儿
2026-01-21 14:20:29
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

素衣读史
2026-01-21 13:57:53
戚薇一家四口澳门游,女儿Lucky打耳洞爱美,儿子脸肉嘟嘟

戚薇一家四口澳门游,女儿Lucky打耳洞爱美,儿子脸肉嘟嘟

一窥究竟
2026-01-21 14:28:35
郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

无心小姐姐
2026-01-09 17:46:24
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
亚洲第一赌场新东泰覆灭记:性交易泛滥,富商疯狂砸钱,挥金如土

亚洲第一赌场新东泰覆灭记:性交易泛滥,富商疯狂砸钱,挥金如土

谈史论天地
2026-01-21 06:10:03
历史性突破!U23国足首进亚洲杯决赛

历史性突破!U23国足首进亚洲杯决赛

财联社
2026-01-21 01:28:20
特朗普:不去G7峰会 因为马克龙干不长了

特朗普:不去G7峰会 因为马克龙干不长了

财联社
2026-01-21 11:40:17
第一个拒绝加入特朗普“和平委员会”的总统来了!中国也收到邀请

第一个拒绝加入特朗普“和平委员会”的总统来了!中国也收到邀请

现代小青青慕慕
2026-01-21 11:36:45
交易巴特勒!你好,小波特

交易巴特勒!你好,小波特

老垯科普
2026-01-21 14:56:32
“长安”这个名字不好吗,为什么要改为“西安”,谁改的?

“长安”这个名字不好吗,为什么要改为“西安”,谁改的?

长风文史
2026-01-20 20:02:02
利润136亿的绩优股,一年两次分红股息率3%,股价从70元跌到24元

利润136亿的绩优股,一年两次分红股息率3%,股价从70元跌到24元

投资观
2026-01-21 07:45:03
2026-01-21 16:44:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
419文章数 38关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

中国是否加入"和平委员会" 外交部回应

头条要闻

中国是否加入"和平委员会" 外交部回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金 起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大 重夺高端话语权

态度原创

房产
数码
教育
健康
亲子

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

数码要闻

联力确认隐流二代方屏版水冷USB故障最大诱因,已升级优化产品

教育要闻

初中竞赛题:这种指数方程怎么解?数形结合一招搞定

血常规3项异常,是身体警报!

亲子要闻

新华读报|儿童近视越来越早?专家给家长的“近视防控三件套”

无障碍浏览 进入关怀版