网易首页 > 网易号 > 正文 申请入驻

全球最强大模型一夜易主,GPT-4被全面超越

0
分享至

白交 西风 发自 凹非寺
量子位 | 公众号 QbitAI

Anthropic刚刚官宣:Claude 3来了!

作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——

在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。

浅看一下这份成绩单,就十分扎眼~

几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供 200K 上下文窗口,并且接受超过100万Tokens输入

Gemini 1.5 Pro:嗯?

目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)

另外,Opus和Sonnet也开放API访问,开发者可以立即使用。

有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。

不过奥特曼可能还在烦马斯克的诉讼……

最新最强大模型发布

此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。

首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:

还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。

对于这样性能结果,有专业人士表达了自己的看法。

比如爱丁堡大学博士生、 中文大模型知识评估基准C - Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。

他认为,真正区分模型性能基准的是MATH and GPQA

另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低

在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。

还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。

其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。

官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

  • 大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;
  • 中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;
  • 小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;

价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入

对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。

第一手实测反馈

既如此,那就先免费来尝尝鲜~

目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档,也能准确OCR识别:

底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。

然鹅,可能是人太多的原因,尝试了几次都显示“Failed”

不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。

为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:

还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了

在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。

还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:

初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?

好了,感兴趣的朋友,可以戳下方链接体验啦~
https://claude.ai/
参考链接:
[1]https://www.anthropic.com/news/claude-3-family
[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年度首家!海南传媒巨头被裁定重整!被2000万欠款拖到破产边缘

年度首家!海南传媒巨头被裁定重整!被2000万欠款拖到破产边缘

牛锅巴小钒
2026-02-27 20:39:25
老话“正月怕十二”,明日正月十二,再忙别忘“吃三样,做一事”

老话“正月怕十二”,明日正月十二,再忙别忘“吃三样,做一事”

神牛
2026-02-27 10:00:02
涨疯了!开年最牛资产,不是黄金,不是白银,竟是它!

涨疯了!开年最牛资产,不是黄金,不是白银,竟是它!

财经要参
2026-02-28 00:20:03
巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

霁寒飘雪
2026-02-27 17:29:20
美国大兵是真能忍,福特号上个厕所要等 45 分钟,到处屎尿横行…

美国大兵是真能忍,福特号上个厕所要等 45 分钟,到处屎尿横行…

我心纵横天地间
2026-02-25 23:28:03
闹心,福建某设计院年后开工裁员2/3!

闹心,福建某设计院年后开工裁员2/3!

黯泉
2026-02-27 22:37:32
养老金好消息!今年上涨稳了?高于6000不涨,低于3000多涨可行吗

养老金好消息!今年上涨稳了?高于6000不涨,低于3000多涨可行吗

夜深爱杂谈
2026-02-26 20:20:20
别猜了!苏州下一步 “撤县设区”,这三地的可能性最大!

别猜了!苏州下一步 “撤县设区”,这三地的可能性最大!

金哥说新能源车
2026-02-27 20:07:28
6月1日起全国执行!二次供水不归物业管,几十年扯皮终于画上句号

6月1日起全国执行!二次供水不归物业管,几十年扯皮终于画上句号

老特有话说
2026-02-26 13:32:14
贵州遵义一小区传出爆炸声高层墙面大面积脱落开裂,当地通报:物业工程人员在维护小区应急备用电源柴油发电机时,排烟管道产生爆燃

贵州遵义一小区传出爆炸声高层墙面大面积脱落开裂,当地通报:物业工程人员在维护小区应急备用电源柴油发电机时,排烟管道产生爆燃

极目新闻
2026-02-27 20:57:41
剩菜被关注!研究发现:糖尿病人经常吃剩菜,或有3大变化

剩菜被关注!研究发现:糖尿病人经常吃剩菜,或有3大变化

王晓爱体彩
2026-02-27 16:57:38
过年如果没人找你吃饭、喝茶、聚会,电话几乎没有,说明3个问题

过年如果没人找你吃饭、喝茶、聚会,电话几乎没有,说明3个问题

木言观
2026-02-23 14:37:20
广东主持区志航现状:66岁很油腻,转行成行为艺术家,女儿很漂亮

广东主持区志航现状:66岁很油腻,转行成行为艺术家,女儿很漂亮

白面书誏
2026-02-26 19:24:47
她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

她拒唱国歌,否认中国籍,俩儿子也落户国外,如今她过得怎么样了

阅微札记
2026-02-25 16:56:12
房价不稳,经济真的起不来!中国经济的底,其实就在楼市里

房价不稳,经济真的起不来!中国经济的底,其实就在楼市里

恪守原则和底线
2026-02-28 06:40:08
合作17年,如今坦白和岳云鹏私下关系冷淡的孙越,原来才是聪明人

合作17年,如今坦白和岳云鹏私下关系冷淡的孙越,原来才是聪明人

银河史记
2026-02-27 16:10:38
花了18年,他把孩子送上世界名校:1个月后,儿子去世了

花了18年,他把孩子送上世界名校:1个月后,儿子去世了

社会日日鲜
2026-02-16 09:09:56
巴基斯坦宣布展开“公开战争”,阿富汗发起大规模报复,中方呼吁尽快停火“避免生灵涂炭”

巴基斯坦宣布展开“公开战争”,阿富汗发起大规模报复,中方呼吁尽快停火“避免生灵涂炭”

环球网资讯
2026-02-28 06:57:18
范冰冰坐镇国外杂志封面,带来鬼魅写真~

范冰冰坐镇国外杂志封面,带来鬼魅写真~

美剧组|人人影视
2026-02-27 23:24:52
20万级!丰田官宣:3月5日,新车正式预售

20万级!丰田官宣:3月5日,新车正式预售

高科技爱好者
2026-02-27 23:08:18
2026-02-28 07:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12209文章数 176398关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普警告伊朗:“有时候不得不打”

头条要闻

特朗普警告伊朗:“有时候不得不打”

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

家居
艺术
健康
游戏
公开课

家居要闻

素色肌理 品意式格调

艺术要闻

王个簃『清供图』

转头就晕的耳石症,能开车上班吗?

《宝可梦:冠军》4月登陆NS 夏季登陆手机端

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版