网易首页 > 网易号 > 正文 申请入驻

GPT-4o一夜被赶超!Anthropic推出Claude 3.5,网友3分钟克隆马里奥游戏

0
分享至

一夜之间,刚封神的GPT4o被赶超了。

智东西6月21日报道,昨日晚间,Anthropic推出了新一代大模型Claude 3.5 Sonnet,在多项全球权威测评中一举超越了OpenAI的GPT-4o。

Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus,在研究生水平的推理 (GPQA)、本科生水平的知识 (MMLU) 和编码能力 (HumanEval)多方面,也都刷新了行业基准。

在速度和成本方面,Claude 3.5 Sonnet是Claude 3 Opus的两倍,加上优惠的价格,它很适合帮用户处理编程、联动程序等复杂任务。

目前,用户可以通过Claude网页和iOS程序免费试用Claude 3.5 Sonnet,付费用户能更高速访问。

同时,客户可通过Anthropic API、Amazon Bedrock和Google Cloud获取该模型。API的收费标准是3美元/每百万输入tokens,15美元/每百万输出tokens,支持200k tokens上下文窗口。

发布之后,Claude 3.5 Sonnet立马在AI圈引起轰动。有网友称,使用Claude 3.5 Sonnet编程比GPT-4o效率高10倍。

有网友3分钟完成了马里奥游戏的克隆版,称最疯狂的是基于最新Artifacs预览功能,一键看到编程应用的预览效果。

Anthropic被视为OpenAI最有力的竞争对手之一,本次Claude 3.5 Sonnet的发布可谓狙击GPT-4o。这是其Claude 3.5的中杯版本,Claude 3.5 Haiku和Claude 3.5 Opus计划今年晚些时候推出。

有一个有意思的细节,在Anthropic的演示视频中出现的演示用户是“Sam”,这似乎是在问候OpenAI的CEO Sam Altman。

官方地址:https://claude.ai/

一、生成2倍速,多项能力赶超GPT-4o

Claude 3.5 Sonnet在其公布的GPQA、MMLU、HumanEval等所有测评中,都超越了OpenAI的GPT-4o,仅数学能力得分略低于GPT-4o。

在AI搜索引擎创企Perplexity的试用评估中,Claude 3.5也获得了优于GPT-4o的表现。Claude 3.5 Sonnet现已在付费AI搜索引擎Perplexity Pro上推出。

在社交媒体X,不少第三方测评团队也给出了试用结论,相比于GPT-4o,Claude 3.5 Sonnet几乎成了推理、语言、编程、数据分析、数学和指令遵循方面的“六边形战士”。

Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus,在速度和成本方面,Claude 3.5 Sonnet也与Anthropic的中端型号Claude 3 Sonnet旗鼓相当——运行速度是Claude 3 Opus的两倍,成本仅1/5。

在内部代理编码评估中,Claude 3.5 Sonnet成功解决了64%的问题,表现优于仅解决了38%的Claude 3 Opus。在得到指导和相关工具后,Claude 3.5 Sonnet 能够独立编写、编辑和执行代码,并具备复杂的推理和故障排除能力。

有网友在社交平台X贴出使用体验,仅仅25秒,Claude 3.5 Sonnet帮他编写了一个功能整齐的游戏程序。

二、最强视觉模型,多测评超GPT-4o,图表识别能力炸场

Claude 3.5 Sonnet也是Anthropic目前最强大的视觉模型。

它在标准视觉基准测试中超越了Claude 3 Opus。对于需要视觉推理的任务,如解释图表和图形,这些改进尤为显著。此外,Claude 3.5 Sonnet还能准确地从质量不高的图像中转录文本。

如下图所示,在多项权威测评中Claude 3.5 Sonnet超过了GPT-4o,在所有测评中超越了Gemini 1.5 Pro。

如下图所示,Claude 3.5 Sonnet可以快速识别PDF文件内容并输出折线图。

当被继续要求生成网页演示内容,Claude 3.5 Sonnet也可以胜任。

三、颠覆对话式协作,交互升级,四步编程并渲染游戏

现在,Anthropic还将在Claude.ai上推出Artifacts这一新功能,相当于一个预览功能,用以丰富用户与Claude的互动方式。

当用户请求Claude生成代码片段、文本文档或网站设计等内容时,这些Artifacts将在一个专用窗口中与对话一同展示。这为用户提供了一个动态工作区,他们可以实时查看、编辑和构建Claude的创作,将AI生成的内容融入自己的项目和工作流程中。

这一功能的推出标志着Claude从对话式AI向协作式工作环境的进化。

如下图所示,如果要搭建一款游戏并预览效果,用户进需要四个步骤。

首先,输入文本让Claude 3.5 Sonnet生成一个特定大小和风格的角色。

然后,让Claude 3.5 Sonnet为类似风格的视觉要素编程。

紧接着,一个整体的游戏页面被搭建出来,用户可以随时看到代码的生成过程。

最后,就连游戏运行起来的效果,用户也可以通过Artifacts模式进行预览。

在社交媒体X上,有网友称“这太疯狂了”,认为工件+渲染窗口是最佳的编码方式。

作为Anthropic对安全和透明度的承诺,Anthropic最近已将Claude 3.5 Sonnet提供给英国人工智能安全研究所(UK AISI)进行部署前的安全评估,并与美国人工智能安全研究所(US AISI)分享了结果。

Anthropic称其模型开发的核心原则之一是保护隐私。除非用户明确允许,否则Anthropic不会使用用户提交的数据来训练生成模型。Anthropic称其到目前为止未使用任何用户数据来训练生成模型。

结语:OpenAI劲敌出手,追击GPT-4o

Anthropic被认为是OpenAI最强竞争对手之一,Claude 3.5 Sonnet是Claude 3.5系列首款产品,今年晚些时候推出的Claude 3.5 Haiku和Claude 3.5 Opus,是等待OpenAI的后招。

除了研发下一代模型系列,Anthropic还在开发支持企业应用的功能和模式,包括与企业应用程序的集成。Anthropic的团队还在探索诸如“记忆”这样的功能,让Claude能够记住用户的偏好和特定的交互历史,从而提供更加个性化和高效的用户体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
73岁天赐父亲诉说太辛苦,大女儿来家里带妹妹,太暖心了

73岁天赐父亲诉说太辛苦,大女儿来家里带妹妹,太暖心了

童叔不飙车
2026-04-19 11:09:23
博主称民宿内多个针孔摄像头直播大学生隐私,合肥警方:受害人房内已拆除,老板报警了

博主称民宿内多个针孔摄像头直播大学生隐私,合肥警方:受害人房内已拆除,老板报警了

扬子晚报
2026-04-20 11:36:49
MSC神女号已安全通过霍尔木兹海峡!此前被困迪拜一个半月,邮轮上载有5000名乘客,其中含约200名中国游客

MSC神女号已安全通过霍尔木兹海峡!此前被困迪拜一个半月,邮轮上载有5000名乘客,其中含约200名中国游客

三湘都市报
2026-04-20 15:25:11
苏林坐火车回到河内,河内火车站铺了红毯,迎接人员站一排

苏林坐火车回到河内,河内火车站铺了红毯,迎接人员站一排

星星会坠落
2026-04-19 17:08:00
4场持续爆发 天才新星转型后成邵佳一最大发现 国足左路又添猛将

4场持续爆发 天才新星转型后成邵佳一最大发现 国足左路又添猛将

零度眼看球
2026-04-20 06:48:54
一天4次!19岁少女患上外阴癌,崩溃大哭:这个习惯我真的戒不掉

一天4次!19岁少女患上外阴癌,崩溃大哭:这个习惯我真的戒不掉

健康科普365
2026-03-15 11:20:06
横城战役:歼灭美军最多的一战,尸积如山,美军不愿重提的噩梦

横城战役:歼灭美军最多的一战,尸积如山,美军不愿重提的噩梦

浩渺青史
2026-04-20 18:18:20
600年都不倒!天安门这4根重达2万多公斤的华表,有何特殊含义?

600年都不倒!天安门这4根重达2万多公斤的华表,有何特殊含义?

墨印斋
2026-04-14 00:57:55
工作中你捅过最大的娄子是什么?网友:偷个电瓶车被判了死刑

工作中你捅过最大的娄子是什么?网友:偷个电瓶车被判了死刑

夜深爱杂谈
2026-03-18 22:00:35
日本发生7.4级地震,已发布海啸预警

日本发生7.4级地震,已发布海啸预警

观察者网
2026-04-20 16:29:03
第一次和男友同居,我直接震惊:原来男女私下,可爱到犯规

第一次和男友同居,我直接震惊:原来男女私下,可爱到犯规

枫红染山径
2026-04-20 20:13:08
AA制生活了35年,丈夫接母亲来养老,大妈:想让我照顾,没门

AA制生活了35年,丈夫接母亲来养老,大妈:想让我照顾,没门

热心柚子姐姐
2026-04-19 11:59:05
广东最新消息!徐杰深夜发声,新大外参加婚礼,焦泊乔遭弃用

广东最新消息!徐杰深夜发声,新大外参加婚礼,焦泊乔遭弃用

多特体育说
2026-04-19 22:56:40
红军长征时,有一支部队在川西走错方向,最远走到了英属缅甸境内

红军长征时,有一支部队在川西走错方向,最远走到了英属缅甸境内

史之铭
2026-04-16 02:05:10
比亚迪海狮05“双狮”上市:EV版全系搭载闪充技术,起售价9.79万元

比亚迪海狮05“双狮”上市:EV版全系搭载闪充技术,起售价9.79万元

凤凰网科技
2026-04-20 20:43:15
蓝绿卸任领导两样情!蔡英文成绿营辅选大母鸡 马英九却内斗正酣!

蓝绿卸任领导两样情!蔡英文成绿营辅选大母鸡 马英九却内斗正酣!

生活魔术专家
2026-04-20 18:45:21
叶君朋友:死因初步推断为胃出血导致窒息,病发时他独自在工作室

叶君朋友:死因初步推断为胃出血导致窒息,病发时他独自在工作室

南方都市报
2026-04-20 18:09:13
想要夫妻性生活更和谐,试试这5个“爽”招

想要夫妻性生活更和谐,试试这5个“爽”招

精彩分享快乐
2026-04-20 13:24:45
为了“体验被抓的感觉” 女子卖掉游戏账号后又找回 成功把自己送进拘留所

为了“体验被抓的感觉” 女子卖掉游戏账号后又找回 成功把自己送进拘留所

闪电新闻
2026-04-20 18:01:57
你见过老板是怎么把生意干黄的?网友:拿了双一次性筷子还追出来

你见过老板是怎么把生意干黄的?网友:拿了双一次性筷子还追出来

夜深爱杂谈
2026-04-20 09:31:31
2026-04-20 21:23:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11637文章数 117035关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

家居
游戏
房产
时尚
本地

家居要闻

自然慢调 慢享时光

腾讯狂奔2026:68款储备游戏,至少24款“面世”

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

春天就该这样穿!裙子选彩色、白色T恤作内搭,舒适优雅简约

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

无障碍浏览 进入关怀版