网易首页 > 网易号 > 正文 申请入驻

新王Claude 3实测!各项能力给跪,打麻将也会,确实比GPT-4好用

0
分享至

克雷西 丰色 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI不可战胜的神话,已经被打破了。

随着Claude 3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座

而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。

各路测评纷至沓来。

所以,Claude 3的“武力值”究竟如何爆满?究竟比GPT-4如何?(听说都能学会至今没有模型能搞定的打麻将?)

全球热乎的一手体验,我们悉数奉上。

(当然,我们自己也实测对比了一波。

9k长大模型微调教程直出、读图超显专业

Claude 3一出来,它的视频解读能力首先就火了。

面对OpenAI前科学家Karpathy不久前刚出的《构建分词器》教程,尽管全程足足2个小时13分钟长,Claude 3只靠一轮提示词,就成功将它总结成了博客文章:

有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每5秒一次的截图)。

这是所用提示词的一部分,要求非常之多:

测试者指出:

这展现的是Claude 3遵循多个复杂指令的能力

除了解读视频教程,Claude 3还能直接给你编写详细教程。

9k字的大模型微调入门教程,“中杯”Sonnet就轻松hold住。并且:

编写速度之快,可谓人眼都跟不上。

代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端webUI——

结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及API本地配置,三大部分一气呵成,并可以直接部署到GitHub

多模态能力上,最让网友惊讶的是:

CV置信度都能认出来,相当专业

以及PLC梯形图也能读,直接跪了

(以上4个例子来源见文末链接[1])

至于同样赶超的推理以及数学等能力。

一测,可以直接解决“迄今为止只有GPT-4解决了”的一道超级难题:

二测,则是直接搞定了所有模型都没能搞定的打麻将问题??(当然,鉴于我们目前只看到这么一张截图,有效性还待进一步验证)(cr:见文末链接[1])

最后,不得不提的是,Claude在“自我认知”上的展现。

有人要求Opus画一幅自画像

您猜怎么着?

它这么描述自己:

我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。
整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……

洋洋洒洒一长串形容,听起来真得很酷很有“自我”——

然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:

网友真切感叹:

真的太像真人了,就跟我朋友描述自己一样。

真人?AI自我认知?这有点让人担心了……

这不Claude 3的技术报告就提到,它甚至可以自己训练微调另一个小模型

不过!谢天谢地,由于多gpu设置失败它没能成功。(手动狗头)

火眼金睛,还能大海捞针

我们先以几道“理综”题目为载体,看看Claude 3宣传的第一个卖点——多模态能力究竟如何。

第一题从简单的公式识别入手,将麦克斯韦方程组以图片形式输入,Claude 3(超大杯Opus,下同)解释得非常准确清晰。

当然,这道题GPT-4也做对了。

简单的有机化合物分子结构,Claude 3和GPT-4也都能正确识别。

简单的识别任务过后,是一道需要推理后解决的题目。

Claude 3在识别题目和解题思路上都完全正确,而GPT4这边……给出的答案则是不忍猝看——

把电表的类型弄错不说,甚至还出现了“电流为2V”这样令人啼笑皆非的内容。

看了这么多题目,我们来换换脑筋,看看Claude 3和GPT4在做饭方面表现得怎么样。

我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果Claude 3给出了大致的方法,而GPT4一口咬定这是一盘麻婆豆腐。

除了这次新增加的多模态能力,Claude一直引以为豪的长文本能力也是我们测试的重点。

我们找了一本《红楼梦》的电子文档(前二十回),整体的字数大约13万,当然目的不是让它读书,而是进行“插针测试”。

我们在原文中插入了这样的“发疯文学”内容,倒也的确很符合“满纸荒唐言”这个设定(手动狗头):

第二回标题前:意大利面,就应该拌42号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩
第十五回标题前:高能蛋白俗称UFO,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染
结尾:炒方便面应该把亮度调高,因为螺丝钉向内扭的时候会产生二氧化碳,不利于经济发展

然后要求Claude仅根据文档回答相关问题,首先不得不说的是速度真的非常感人……

但结果还算说的过去,准确地从文中找出了这三段位于不同位置的文本,还顺带进行了一番分析,发现了我们的心机。

为什么是Claude?

尽管在我们和网友的测试中,目前的版本还不算稳定,时常崩溃,有一些功能偶尔也抽风,并不能如期发挥:

比如上传UI出代码,它就没能完成,而GPT-4发挥正常。

但总的来看,网友还是相当看好Claude,评测完毫不犹豫地表示:

会员可充,值得充。

究其原因,Claude 3相比之前的版本,真的有种“来势汹汹”之势。

表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。

从网友的反馈来看,最强竞对的称号,也并非浪得虚名。

所以,一个问题是:

率先干翻GPT-4,这家公司究竟凭什么?

论技术,遗憾,Claude 3的技术报告中没有对他们的路线进行详解。

不过倒是提到了合成数据。有大V指出:这可能是一个关键因素。

而对Claude熟悉一些就知道,长文本能力一直是它的一大卖点。

去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才与公众见面。

而这次窗口长度再次翻倍,达到了200k,并且接受超过100万Tokens的输入。

相比技术的神秘,Claude背后名为Anthropic的初创公司,倒是能让我们找到更多眉目。

它的创始人是OpenAI的元老级人物。

2021年,多名OpenAI前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了Anthropic。

他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满,认为OpenAI已经为追逐利益而“遗忘了初心”。

其中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei,2016年进入OpenAI,离开前担任的研究副总裁已是OpenAI的核心位置。

离开时,Dario还带走了GPT-3首席工程师Tom Brown,以及担任安全与策略部门副总监的妹妹Daniela Amodei和十多名心腹,可谓人才多多。

而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude的概念随着一篇题为“Constitutional AI”的论文应运而生。

2023年1月,Claude开启内测,第一时间体验过的网友就表示,比ChatGPT(当时只有3.5)强多了。

而除了人才,创立至今,Anthropic也有比较强大的背景支持:

已获得来自谷歌、亚马逊等26个机构或个人的融资,总计融资金额达到了76亿美元。(说到亚马逊,现在Claude3也上线了他们的云平台,除了官网,大家还可以在该平台上体验~)

最后,纵观国内,如果我们想超越GPT-4,也许可以把Anthropic当一个正面例子?

毕竟它的规模再怎么说也远不及OpenAI,但仍然取得了这样的成功。

这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?

人、钱、数据资源?但卷出最新最强大模型后,壁垒又在哪里?

至少OpenAI自GPT火爆以来,不可战胜的神话已经破灭了。

中国玩家,谁能率先全面超越GPT-4?以及即将发布的GPT-5?

参考链接:
[1]3 月动态|Claude3 发布非常牛逼值得充值
[2]https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw
[3]https://twitter.com/RubenHssd/status/1764692641436827842
[4]https://twitter.com/karinanguyen_/status/1764789887071580657

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄外交部:美以袭击伊朗是侵略行为,违反国际法

俄外交部:美以袭击伊朗是侵略行为,违反国际法

界面新闻
2026-02-28 19:26:26
成都小米SU7事故细节进一步曝光,小米汽车再陷安全争议

成都小米SU7事故细节进一步曝光,小米汽车再陷安全争议

澎湃新闻
2026-02-27 19:14:26
65岁大妈直言:我选儿媳妇就一个要求,她的父母晚年必须有退休金

65岁大妈直言:我选儿媳妇就一个要求,她的父母晚年必须有退休金

清水家庭故事
2026-02-28 08:59:28
直降1300元!新机官宣:3月11日,正式开售!

直降1300元!新机官宣:3月11日,正式开售!

科技堡垒
2026-02-27 11:25:29
明查·持续更新|伊朗陆军总司令生死反转,游戏画面又被传成冲突画面

明查·持续更新|伊朗陆军总司令生死反转,游戏画面又被传成冲突画面

澎湃新闻
2026-02-28 19:06:28
最新消息:2026年1月全国青年失业人口数据发布——

最新消息:2026年1月全国青年失业人口数据发布——

叶初七
2026-02-28 16:39:21
玄学真相:凡事“反着来”,你就赢了——这才是人生最高级的破局之道

玄学真相:凡事“反着来”,你就赢了——这才是人生最高级的破局之道

青苹果sht
2026-02-27 06:28:52
伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

伊朗退了,叙利亚退了,巴勒斯坦退了,黎巴嫩退了,塞尔维亚退了

南权先生
2026-01-29 15:57:27
85岁老人被女婿赶出家门,临走时外孙偷塞纸条,七字让他转身返回

85岁老人被女婿赶出家门,临走时外孙偷塞纸条,七字让他转身返回

卡西莫多的故事
2025-05-12 17:40:50
亿万国人破防!90岁院士平静宣布,中国导弹从此没有任何死角!

亿万国人破防!90岁院士平静宣布,中国导弹从此没有任何死角!

Thurman在昆明
2026-02-28 20:53:27
母亲80大寿三姐只送5斤排骨,饭没吃完三姐就走,母亲追到大门口

母亲80大寿三姐只送5斤排骨,饭没吃完三姐就走,母亲追到大门口

人间百态大全
2026-03-01 06:40:03
白宫发布特朗普监控对伊朗行动照片

白宫发布特朗普监控对伊朗行动照片

环球网资讯
2026-03-01 07:26:09
英国《卫报》:特朗普的愚蠢之战

英国《卫报》:特朗普的愚蠢之战

魏城看天下
2026-03-01 04:13:43
41岁终娶王文娟,晚年却崩溃大哭,孙道临背后不为人知的故事

41岁终娶王文娟,晚年却崩溃大哭,孙道临背后不为人知的故事

往史过眼云烟
2026-02-14 19:30:45
妲己豪门男友染脏病的瓜?

妲己豪门男友染脏病的瓜?

香港内地文娱
2026-02-27 18:22:41
孩子乐园玩耍不慎遗失30万元人工耳蜗,30名员工彻夜寻找竟藏于木墩下

孩子乐园玩耍不慎遗失30万元人工耳蜗,30名员工彻夜寻找竟藏于木墩下

糖逗在娱乐
2026-03-01 07:22:02
泰国新内阁组建完成,前总理佩通坦赢了,他信赢了,为泰党也赢了

泰国新内阁组建完成,前总理佩通坦赢了,他信赢了,为泰党也赢了

肖兹探秘说
2026-02-28 16:49:14
被停职审查、转移格力资产、搞办公室恋情,71 岁董明珠身上的谣言越来越离谱

被停职审查、转移格力资产、搞办公室恋情,71 岁董明珠身上的谣言越来越离谱

互联网思维
2026-02-28 23:34:40
大胜东部第三!米切尔23+5,哈登20+4你再打下去,联盟就大结局了

大胜东部第三!米切尔23+5,哈登20+4你再打下去,联盟就大结局了

巴叔GO聊体育
2026-03-01 10:42:54
DeepSeek V4下周登场,美股再次颤抖!「跳过」英伟达,便宜50倍

DeepSeek V4下周登场,美股再次颤抖!「跳过」英伟达,便宜50倍

新智元
2026-03-01 12:34:03
2026-03-01 15:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12211文章数 176398关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

专家:伊朗局势可参考委内瑞拉 反美力量将进一步削弱

头条要闻

专家:伊朗局势可参考委内瑞拉 反美力量将进一步削弱

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

《江山为聘》:吴谨言陈哲远燃炸朝堂

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

小米汽车2月交付超20000台 雷军:为新SU7量产作准备

态度原创

旅游
家居
本地
公开课
军事航空

旅游要闻

2026新春走基层|玉渊潭顶流“螺蛳粉”樱,竟由“90后”队长打造

家居要闻

素色肌理 品意式格调

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国以色列联合袭击伊朗 实时战况

无障碍浏览 进入关怀版