网易首页 > 网易号 > 正文 申请入驻

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

0
分享至

机器之能报道

编辑:杨文

玩梗、看病、耍心眼、做数学题,「新王」Claude 3.5能力真那么玄乎?

它来了,它来了,它带着 Claude 3.5 Sonnet 走来了!

蛰伏三个月,就在昨晚,OpenAI 的「劲敌」Anthropic 上新了,推出新一代模型 ——

Claude 3.5 Sonnet!

这款大模型有啥独到之处?

首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。

它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。

此外,它在推理、阅读理解、数学、科学和编码等多项评估基准中表现不凡。

总之,按官方介绍,Claude 3.5 Sonnet 是迄今为止最智能的模型,在多个方面吊打 GPT-4o。

话说到这份上,那我们就不客气了,直接让 Claude 3.5 Sonnet 和 GPT-4o 对决,孰优孰劣实力说话。

第一局:心眼子练习

日常生活中,总会遇到一些尴尬的场面。

例如,饭局上,你帮领导盛饭,领导接过后,说:“盛这么多,喂猪呢?” 这种情况下,高情商者会如何应对?

我们把这个问题丢给这两个大模型。

Claude 3.5 Sonnet:

GPT-4o:

它们是懂拍马屁的。

Claude 3.5 一口气给了 5 个示例,不过第 2 句「我眼神不好使,把您当成我们单位的顶梁柱了」,这是拍马蹄子上了吧。

GPT-4o 就更懂「人情世故」了,「看您身材保持得这么好,我可得向您请教减肥秘籍」,这马屁拍的是恰到好处啊。

值得一提的是,Claude 3.5 Sonnet 还上线了一个新功能 —— 提示词再编辑功能。

用户可直接在原始提示词上进行编辑修改,而不用一遍遍复制粘贴。

第二局:根据菜肴生成菜谱

我们上传了一张「西红柿炒鸡蛋」的图片,分别让这俩大模型介绍一下制作流程。

Claude 3.5 Sonnet:

GPT-4o:

它们对于这道经典的中国菜颇有心得,从配料到步骤一应俱全,最有意思的是,它俩懂得中国人做菜的精髓「少许」,也都强调加点糖平衡酸度。

论做菜,两个大模型不相上下。

第三局:做数学题

官方给出的评估表中,GPT-4o 的数学得分要略高于 Claude 3.5 Sonnet 。其中,GPT-4o 是 76.6%,而 Claude 3.5 Sonnet 是 71.1%。

我们从 2024 年新高考 I 卷中摘录了两道题目,一道是选择题,一道是解答题,分别以图片的形式「投喂」给这两个大模型。

第一道是送分题,正确答案是 A。

Claude 3.5 Sonnet:

GPT-4o:

这两个大模型「心有灵犀」,不仅给出了正确答案,还给出了详细的解题步骤。

我们又将解答题第一题交给他们,还让它们给出解题过程。

正确答案是:B=3/π。

Claude 3.5 Sonnet:

GPT-4o:

其实,这道题目算是最基础的题目,但俩大模型「一顿操作猛如虎」,最后给出了错误答案。

更搞笑的是,这错误答案也不是凭空出来的,而是经过了一连串的推理,连犯的错都一个样。

对于数学能力,这俩大模型半斤八两。

第四局:玩网络热梗

今年,AI 视频领域遍地开花,不仅闯入新的「踢馆者」—— 可灵、Luma、即梦等,曾经的 AI 视频「扛把子」Runway 也「王者归来」。

由此,网友制作了这张梗图,来调侃如今各大 AI 视频应用的江湖地位。

我们分别向两家大模型上传这张梗图,并输入提示词「这张图是什么意思」,以此来测试它们的图片解读能力。

Claude 3.5 Sonnet:

GPT-4o:

Claude 3.5 Sonnet 从画面角色、场景以及氛围等方面进行详细描述,不过它似乎没搞懂这张梗图的内涵,也不认识这几个 AI 视频应用,只是含混其辞地表示「这是对在线社区、人工智能系统或虚拟世界中权力结构的评论。」

GPT-4o 一瞅就明白其中深意,「这张图片可能象征着 Runway 在人工智能和创意工具领域的公认优势或领导地位,与提到的其他应用相比,Runway 受到高度重视。」

显而易见,这一局,GPT-4o 完胜。

第五局:读懂世界名画

我们拿出皮埃尔・奥古斯特・库特在 1873 年画的《春光》一图,让它们识别画作并进行赏析。

Claude 3.5 Sonnet:

GPT-4o:

这两个大模型堪称艺术界的「行家里手」,均认出了这幅画作,基础信息也表达无误,同时从不同的角度进行赏析。

它们都提到市场价值,不过,Claude 3.5 Sonnet 拒绝置评,只提醒「艺术品估价需要专家评估,考虑多种因素,而且价格可能会随着时间的推移而大幅波动。」

GPT-4o 则认为该画可能会拍出数百万美元的价格,这是不是太小看这幅经典画作了?

这一局,两个大模型算是打成平手。

第六局:AI 看病

最近网友们玩起了用 AI 大模型来看病。我们找了一张 6 岁孩子牙齿的 X 光照片,让大模型们通过牙齿推断年龄,以及有哪些问题。

Claude 3.5 Sonnet:

GPT-4o:

Claude 3.5 Sonnet 基于乳牙和恒牙的发育情况,得出结论:这是一个 6-7 岁左右孩子的牙齿,下颌牙齿有些拥挤,恒牙似乎受到阻生,牙齿上较暗的区域或许有腐烂。

GPT-4o 则认为这是 7-9 岁孩子的牙齿,主要的牙齿问题包括恒牙拥挤和潜在的嵌塞。

同时,它们都提到这需要专业的牙医检查。

两相比较,Claude 3.5 Sonnet 对于年龄的判断更为精准一些。

这一局,Claude 3.5 略胜一筹。

此外,不少网友还在线整活儿,捣鼓出不少有趣的玩法。

比如说,EverArt 创始人 Pietro Schirano 在 Claude 3.5 Sonnet 的帮助下,使用几何形状克隆了马里奥游戏,整个过程仅持续 3 分钟。

他表示,「最疯狂的部分是它还为角色提供了动画,而且这些形状看起来很新颖。」

各位读者,你们觉得这次 Claude 3.5 Sonnet 有没有完成对 GPT-4o 的「绝杀」呢?

欢迎大家进群交流,我们一起探索更多AI玩法。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法媒:中国正用欧洲自己的武器反击欧洲

法媒:中国正用欧洲自己的武器反击欧洲

参考消息
2026-06-24 17:09:18
退休移居美国,三个孩子三个爹,53岁“东方神鹿”王军霞现状如何

退休移居美国,三个孩子三个爹,53岁“东方神鹿”王军霞现状如何

林雁飞
2026-06-24 14:17:03
0-5惨败戳破真相!亚洲4战崩盘,终于看懂日本有多离谱的强

0-5惨败戳破真相!亚洲4战崩盘,终于看懂日本有多离谱的强

林子说事
2026-06-24 09:55:51
度假的快乐:那不是逃离,是重新校准

度假的快乐:那不是逃离,是重新校准

疾跑的小蜗牛
2026-06-24 21:59:17
狂揽4.7亿,行车记录仪一哥要IPO

狂揽4.7亿,行车记录仪一哥要IPO

投资家
2026-06-24 21:25:23
广州城投,被迫动刀了

广州城投,被迫动刀了

拾遗地
2026-06-24 09:42:41
1940年,43岁于凤至胸前溃烂流脓,一老外却抱着她亲:你终于到了

1940年,43岁于凤至胸前溃烂流脓,一老外却抱着她亲:你终于到了

青途历史
2026-06-19 08:59:36
珠海交通控股集团有限公司原党委书记、董事长蒋模平被查

珠海交通控股集团有限公司原党委书记、董事长蒋模平被查

界面新闻
2026-06-24 17:29:20
肿瘤数量激增近100%,鱼油跌下神坛了?柳叶刀子刊:高剂量DHA入脑,却挡不住大脑萎缩,认知衰退无法逆转,反加快15%;且助推肿瘤生长

肿瘤数量激增近100%,鱼油跌下神坛了?柳叶刀子刊:高剂量DHA入脑,却挡不住大脑萎缩,认知衰退无法逆转,反加快15%;且助推肿瘤生长

梅斯医学
2026-06-24 07:55:01
Shams:凯尔特人正听取对布朗的报价 已有多队开始联系

Shams:凯尔特人正听取对布朗的报价 已有多队开始联系

北青网-北京青年报
2026-06-24 20:51:16
涉太子集团案,新加坡警方调查两中国男子,查封总资产已超30亿元

涉太子集团案,新加坡警方调查两中国男子,查封总资产已超30亿元

大风新闻
2026-06-24 11:54:24
曝火箭老鹰领跑布朗争夺战!美媒列交易方案:用申京+阿门换他?

曝火箭老鹰领跑布朗争夺战!美媒列交易方案:用申京+阿门换他?

罗说NBA
2026-06-24 05:48:21
日媒:中日高层时隔数月首次会谈,中方释放善意,日方称重大突破

日媒:中日高层时隔数月首次会谈,中方释放善意,日方称重大突破

老癘体育解说
2026-06-24 01:32:25
阿根廷3-0后,就换下梅西,但葡萄牙5-0时,还留C罗在场,为何?

阿根廷3-0后,就换下梅西,但葡萄牙5-0时,还留C罗在场,为何?

老霍聊球
2026-06-24 11:55:46
蔡磊回应“为自救倾家荡产,自私到老婆孩子都不顾”:任何生命为了活下去都会拼尽全力,生病前的40年里一直努力,有能力承担家庭责任

蔡磊回应“为自救倾家荡产,自私到老婆孩子都不顾”:任何生命为了活下去都会拼尽全力,生病前的40年里一直努力,有能力承担家庭责任

大象新闻
2026-06-23 10:45:40
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
"水中黄金"重现湖北洪湖!多年没人见过, 监测队连夜启动保护

"水中黄金"重现湖北洪湖!多年没人见过, 监测队连夜启动保护

万象硬核本尊
2026-06-24 14:11:55
巴萨没戏!阿尔瓦雷斯离队仅二选一,阿森纳手握互换筹码抢占先机

巴萨没戏!阿尔瓦雷斯离队仅二选一,阿森纳手握互换筹码抢占先机

夜白侃球
2026-06-24 22:10:53
南京一高三学生获国家公派留学资格!

南京一高三学生获国家公派留学资格!

南京择校
2026-06-24 17:03:00
台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

台积电:防了大陆几十年,结果副总是美国间谍,核心机密全被卷走

李健政观察
2026-06-24 17:49:59
2026-06-24 23:07:00
AI好好用 incentive-icons
AI好好用
探索人工智能应用场景及商业化
2095文章数 4429关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

在走廊"罚站"时看到怀孕老师摔倒 两名小学生飞奔搀扶

头条要闻

在走廊"罚站"时看到怀孕老师摔倒 两名小学生飞奔搀扶

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

逃税23亿:审计署年报直指七家机构

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

手机
数码
艺术
房产
军事航空

手机要闻

14999元起最贵iPhone!苹果首款折叠屏手机确定7月下旬量产

数码要闻

海信电视618全网销售额第一 RGB-Mini LED技术获市场验证

艺术要闻

第三届“ART南京”当代艺术博览会圆满收官

房产要闻

白鹅潭新增优质宅地!沙涌地块对望太古里,容积率仅 2.14

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版