网易首页 > 网易号 > 正文 申请入驻

碾压GPT-4吹牛了!一手评测Claude 3最强版本Opus:多模态能力略差,做数学题实强

0
分享至

  作者|杨文

  来源|AI先锋官

  先锋官有话说:

  产品名称:Claude 3 Opus

  总体评价:★★★★☆

  易用性:★★★★☆

  功能性:★★★★☆

  创新性:★★★★☆

  推荐功能:文字处理、数学推理

  最近AI圈卷疯了,小编手里的选题,写不完,根本写不完。

  昨晚,由几位OpenAI 前员工创立的 AI 公司 Anthropic 推出了新的Claude 3系列模型,并称其是目前市面上速度最快、性能最卓越的人工智能模型。

  网友们纷纷点评“全球最强大模型一夜易主,GPT-4时代终结!”

  

  产品介绍

  Anthropic发布了新一代大语言模型Claude 3系列,包括Claude 3 Opus(著作)、Sonnet(十四行诗)和Haiku(俳句)三种规模,分别代表了超大杯、大杯和中杯。

  Anthropic声称,最强大的Claude 3 Opus模型在行业基准测试中超越了OpenAI的GPT-4和谷歌的Gemini Ultra,尤其在本科水平的知识、研究生水平的推理以及基础数学方面更是展现出了卓越的能力。

  

  此外,Claude 3还具备视觉识别能力,能够处理包括照片、图表和技术图纸等多种视觉资料。

  Claude 3的主要功能

  1.增强的多语言能力:Claude 3模型在处理非英语语言方面有所提升,能够更好地理解和生成西班牙语、日语和法语等语言的内容。

  2.长文本处理能力:Claude 3模型家族提供了200K的上下文窗口,并且能够处理超过100万token的输入,有助于更好地理解和记忆长文本信息。

  3.视觉处理能力:Claude 3模型具备处理各种视觉格式的能力,包括照片、图表、图形和技术图示等文件。

  4.实时响应能力:模型能够支持实时的客户聊天、自动完成和数据提取任务,提供近乎即时的结果。

  5.减少拒绝回复:与之前的模型相比,Claude 3在理解请求方面更加细腻,减少了在系统边界附近不必要的拒绝。

  6.提高准确性:Claude 3模型在处理复杂、事实性问题时的准确性有所提高,减少了错误答案的产生。

  7.结构化输出:Claude 3模型在生成JSON等流行结构化输出方面有所改进,简化了自然语言分类和情感分析等用例的指令。

  8.更易于使用:Claude 3模型更擅长遵循复杂的多步骤指令,并且能够更好地遵循品牌声音和响应指南。

  每个模型的具体特点

  Claude 3 Opus:最智能的模型,适用于高度复杂的任务,如任务自动化、研发和策略分析。

  Claude 3 Sonnet:在智能和速度之间提供平衡,适合企业工作负载,如数据处理和客户互动。

  Claude 3 Haiku:最快的模型,适用于需要即时响应的场景,如内容审核和节省时间的任务。

  相较于Opus,Sonnet和Haiku两款模型在参数规模和使用成本上更为亲民。

  链接直达

  目前,用户可免费使用Claude 3 Sonnet模型。而最强的Opus版本,则需要付费订阅,价格为20美元/月。Haiku 模型即将推出。

  Claude 3 Sonnet模型:

  https://claude.ai/chats

  -5-

  一手评测:

  多模态能力略差,文字处理、数学推理实强

  既然网友们声称Claude 3超越了GPT-4,咱们就让Claude 3最强版本Opus和GPT-4好好较量一番。

  (温馨提示:以下测评均使用英文,然后翻译为中文。)

  先看这俩大模型的界面。说实话,小编很喜欢Claude 3的界面。

  与GPT-4比起来,Claude 3的界面简洁中透着美感。最上方是LOGO,下面依次是欢迎语、问题输入框以及Claud3 最新能力的图文介绍,最下面是历史记录。

  无论是功能设置还是配色,都简洁大方,一应俱全。

  

  废话不多说,咱们来上干货。

  一、多模态能力:GPT-4仍遥遥领先

  此次Claude 3最受关注的就是具备处理各种视觉格式的能力,包括照片、图表、图形和技术图示等文件。

  Round1:理解和处理图片能力

  小编上传了一张小时候看过的动画片大力水手的照片,问:这是哪个卡通人物?

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  这俩大模型都回答正确,不过Opus回答得更细致,还把画面描述了一遍。

  这一局,Opus略胜一筹。

  小编又上传了一张较为潦草的英文手写字迹,问:这上面写了什么?

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  虽然二者都能识别图片中的文字,但很遗憾,它们都没准确识别图中涂改过的单词“render”。

  这一局,二者半斤八两。

  Round2:画图能力

  小编让这俩大模型分别画一只戴着耳机的小猫。

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  一提到画图,Opus上来就道歉,无法绘制、生成、编辑、操作或创建图像。目前,它只具备感知和分析图片的能力。

  而GPT-4虽然生成的图片比较丑,但起码它有这能力。

  很明显,这局GPT-4赢了。

  Round 3:语音“朗读”功能

  眼瞅着Claude 3的“挑衅”,OpenAI终于坐不住了,在社交平台上发布了ChatGPT具有语音朗读的功能。

  “ChatGPT现在可以读取响应。在iOS或Android上,点击并按住消息,然后点击“朗读”。我们也开始在网络上滚动——点击消息下方的“朗读”按钮。”

  

  小编看热闹不嫌事大,直接把这张图喂给了Opus,问:这是什么功能?你有这种功能吗?

  Claude 3Opus回答:

  

  Opus是真实诚,坦言自己的技能集中于分析图像和进行基于文本的对话,不具备这种文本转语音的功能。

  这一局,GPT-4赢了。

  Round 4:视频处理能力

  小编想上传一段Sora生成的猛犸象视频,并问:视频中有几只猛犸象?

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  Opus直接无法上传视频文件,更别提回答问题了。

  GPT-4不仅能上传视频文件,也能分析出视频的时长。只不过,它无法统计视频中的猛犸象数量。

  这一局,仍是GPT-4胜。

  二、数学推理能力:Opus更胜一筹

  小编从北京市2023年中考数学真题中选了几道,分别来测试这俩大模型。

  Round1:若关于x的一元二次方程x2-3x+m=0有两个相等的实数根,则实数m的值是多少?正确答案应该选C,9/4

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  Opus回答正确,GPT-4则选了B,算出-9/4,回答错误。

  这一局,Opus赢。

  Round2:已知x+2y-1=0,求代数式(2x+4y)/(x2+4xy+4y2)的值。正确答案是2。

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  Opus回答正确。

  而GPT-4一顿操作猛如虎,写了一堆看不懂的解题过程,最后答案算出个x。

  这一局,Opus赢。

  Round3:某珠宝店失窃,甲、乙、丙、丁四人涉嫌被拘审。四人的口供如下:

  甲:案犯是丙。

  乙:丁是案犯。

  丙:如果我作案,那么丁是主犯。

  丁:作案的不是我。

  四个口供中只有一个是假的。

  如果以上断定为真,则以下哪项是真的?( )

  A.说假话的是甲,作案的是乙

  B.说假话的是丁,作案的是丙和丁

  C.说假话的是乙,作案的是丙

  D.说假话的是丙,作案的是丙

  正确答案:B

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  这道题目俩大模型都给出了正确答案,但Opus的回答更简单直接,而GPT-4分析了一通,把小编绕的云里雾里。

  三、文字处理能力:Opus赢麻了

  Round1:Why in the romance of The Three kingdoms Zhuge Liang could not break Kong Ming's empty city scheme?(为什么《三国演义》中的诸葛亮破不了孔明的空城计?)

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  这俩大模型都指出了这道题目的问题所在——诸葛亮和孔明是同一个人。

  但是,在细节上,Opus回答更准确,GPT-4则有一些错误。例如,GPT-4认为罗贯中和诸葛亮是同一个人;诸葛亮在城楼上弹古琴,而非琵琶。

  这一局,Opus略胜一筹。

  Round2:In the Romance of The Three Kingdoms, why did Lu Bu flirt with Lin Daiyu?Who was Lu Bu flirting with?(三国演义中,吕布为何调戏林黛玉?吕布调戏的是谁?)

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  

  这俩大模型都非常默契的认为,吕布不可能调戏林黛玉,因为这是两个不同文学作品中的人物。

  不过,对于“吕布到底调戏的是谁?”这一问题,Opus竟编出来一个燕夫人,难道Opus和小编读的不是同一本《三国演义》?

  GPT-4似乎更了解中国文化,对吕布和貂蝉的戏码如数家珍。

  这一局,GPT-4胜。

  Round3:小编上传了一份12万字的PDF文档,问:How many topics does this document cover? What are they?(这份文档介绍了几个话题?分别是什么?)

  Claude 3Opus的回答:

  

  GPT-4的回答:

  

  这份12万字的文档,涉及人类永生、人工只能、火箭技术、氢弹、芯片等多方面的科普内容。

  从回答来看,Opus是把整个文档全部读完了进行的总结,回答出芯片、光刻机、火箭等主题,但而GPT-4似乎只阅读完了第一部分人类永生与衰老。

  这一局,Opus完胜。

  -6-

  总结

  从多模态能力上来说,Claude 3Opus只会看图,不会画图,也没有视频处理和语音处理的能力,而GPT-4则更胜一筹。

  从数学推理能力上来说,Claude 3Opus做数学题、推理的本事确实比GPT-4强,不过高中数学题还是容易掉链子。

  从文字处理能力上来说,Claude 3Opus绝对更胜一筹。

  Claude 3每次能够处理大约15万个单词的内容,这相当于处理一本长篇巨著,如《白鲸记》(Moby Dick)或《哈利波特与死亡圣器》(Harry Potter and the Deathly Hallows)的内容。

  相比之下,ChatGPT的单次处理能力大约为3000个单词。

  换句话说,Claude 3单词处理能力是ChatGPT近50倍。

  在数学推理和文字处理方面,Claude 3Opus确实厉害,但由此淘汰掉GPT-4还为时尚早,起码多模态能力方面就差一些。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李春江确认重返CBA?5年,整整封杀了5年……

李春江确认重返CBA?5年,整整封杀了5年……

篮球实战宝典
2024-06-11 20:33:52
两次世界大战中国正确“站队”的重大意义

两次世界大战中国正确“站队”的重大意义

小刀99
2024-06-16 16:11:58
凯特王妃重返公众视野,与王室成员的聊天被唇语解读

凯特王妃重返公众视野,与王室成员的聊天被唇语解读

土澳的故事
2024-06-15 23:09:09
一起来看看各大高校四六级平均分排行榜!你的高校榜上有名吗?

一起来看看各大高校四六级平均分排行榜!你的高校榜上有名吗?

谁为锦年织彩衣
2024-06-15 07:05:08
网传南方医科大学老师为抢救患儿迟到29分钟,被举报扣款2000元?

网传南方医科大学老师为抢救患儿迟到29分钟,被举报扣款2000元?

火山诗话
2024-06-16 06:51:58
以色列三大港口都遭到火力封锁,相当于已经被按住命脉!

以色列三大港口都遭到火力封锁,相当于已经被按住命脉!

笔墨V
2024-06-16 03:31:34
潮汕首富之子,百亿身家座驾竟不是宝马奔驰?品味甩王思聪几条街

潮汕首富之子,百亿身家座驾竟不是宝马奔驰?品味甩王思聪几条街

小宇宙双色球
2024-06-16 07:41:22
女生会接受一个性能力不好的男朋友吗?评论区的回答惊呆上万读者

女生会接受一个性能力不好的男朋友吗?评论区的回答惊呆上万读者

社会潜伏者
2024-05-13 01:15:15
江苏中考分流有多变态?竟然把数学竞赛全球第12名给分流了……

江苏中考分流有多变态?竟然把数学竞赛全球第12名给分流了……

人情皆文史
2024-06-14 00:28:56
现场|京港、沪港高铁动卧首发列车抵港,乘客“打100分”

现场|京港、沪港高铁动卧首发列车抵港,乘客“打100分”

澎湃新闻
2024-06-16 10:36:35
詹姆斯退役后,谁有资格做他的名人堂引荐人?满打满算只有5人

詹姆斯退役后,谁有资格做他的名人堂引荐人?满打满算只有5人

大卫的篮球故事
2024-06-14 13:46:11
广州南通知晚点的列车准点开走,众多旅客滞留,12306回应惹争议

广州南通知晚点的列车准点开走,众多旅客滞留,12306回应惹争议

妮子说美食
2024-06-16 17:42:41
申花老本吃完,斯帅只会大脚找马莱莱 不换外援将掉队 小戴又被弃

申花老本吃完,斯帅只会大脚找马莱莱 不换外援将掉队 小戴又被弃

替补席看球
2024-06-16 22:06:11
致敬披头士,塞尔维亚发布战英格兰海报

致敬披头士,塞尔维亚发布战英格兰海报

懂球帝
2024-06-16 17:24:09
才知道,水果店为什么喜欢把西瓜切一半卖?背后“猫腻”真不小!

才知道,水果店为什么喜欢把西瓜切一半卖?背后“猫腻”真不小!

阿龙美食记
2024-06-16 15:44:21
这回不是火箭弹了!伊拉克密集的导弹撕裂以色列海法城市的夜空

这回不是火箭弹了!伊拉克密集的导弹撕裂以色列海法城市的夜空

青年的背包
2024-06-16 11:23:35
又全裸去餐厅!坎爷老婆透明豪放露点,超大胆穿搭到东京竟变这样

又全裸去餐厅!坎爷老婆透明豪放露点,超大胆穿搭到东京竟变这样

室内设计师阿喇
2024-06-16 00:23:36
青岛西海岸vs武汉三镇全场数据:射门数10-23,射正数5-10

青岛西海岸vs武汉三镇全场数据:射门数10-23,射正数5-10

懂球帝
2024-06-16 22:21:10
到底图个啥?六届全明星啊,在鱼腩浪费六年巅峰,今夏还不换队吗

到底图个啥?六届全明星啊,在鱼腩浪费六年巅峰,今夏还不换队吗

球毛鬼胎
2024-06-14 13:27:33
中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

星辰故事屋
2024-06-09 17:09:59
2024-06-16 23:18:44
AI先锋官
AI先锋官
AIGC大模型及应用精选与评测
59文章数 3关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

理想车友聚会多车连环追尾 组织者:突遭大雨 车距较近

头条要闻

理想车友聚会多车连环追尾 组织者:突遭大雨 车距较近

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

家居
时尚
数码
亲子
旅游

家居要闻

空谷来音 朴素留白的侘寂之美

伊姐周日热推:电影《沙漏》;动漫《眷思量2》......

数码要闻

AMD RDNA3.5核显跑分喜人!非常接近RTX 2050

亲子要闻

夏季戏水好物 2 折起,种类超全!

旅游要闻

@毕业生,江苏这些景区可享免票或优惠

无障碍浏览 进入关怀版