网易首页 > 网易号 > 正文 申请入驻

GPT-4o一夜被赶超!Anthropic推出Claude 3.5,网友3分钟克隆马里奥游戏

0
分享至

一夜之间,刚封神的GPT4o被赶超了。

智东西6月21日报道,昨日晚间,Anthropic推出了新一代大模型Claude 3.5 Sonnet,在多项全球权威测评中一举超越了OpenAI的GPT-4o。

Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus,在研究生水平的推理 (GPQA)、本科生水平的知识 (MMLU) 和编码能力 (HumanEval)多方面,也都刷新了行业基准。

在速度和成本方面,Claude 3.5 Sonnet是Claude 3 Opus的两倍,加上优惠的价格,它很适合帮用户处理编程、联动程序等复杂任务。

目前,用户可以通过Claude网页和iOS程序免费试用Claude 3.5 Sonnet,付费用户能更高速访问。

同时,客户可通过Anthropic API、Amazon Bedrock和Google Cloud获取该模型。API的收费标准是3美元/每百万输入tokens,15美元/每百万输出tokens,支持200k tokens上下文窗口。

发布之后,Claude 3.5 Sonnet立马在AI圈引起轰动。有网友称,使用Claude 3.5 Sonnet编程比GPT-4o效率高10倍。

有网友3分钟完成了马里奥游戏的克隆版,称最疯狂的是基于最新Artifacs预览功能,一键看到编程应用的预览效果。

Anthropic被视为OpenAI最有力的竞争对手之一,本次Claude 3.5 Sonnet的发布可谓狙击GPT-4o。这是其Claude 3.5的中杯版本,Claude 3.5 Haiku和Claude 3.5 Opus计划今年晚些时候推出。

有一个有意思的细节,在Anthropic的演示视频中出现的演示用户是“Sam”,这似乎是在问候OpenAI的CEO Sam Altman。

官方地址:https://claude.ai/

一、生成2倍速,多项能力赶超GPT-4o

Claude 3.5 Sonnet在其公布的GPQA、MMLU、HumanEval等所有测评中,都超越了OpenAI的GPT-4o,仅数学能力得分略低于GPT-4o。

在AI搜索引擎创企Perplexity的试用评估中,Claude 3.5也获得了优于GPT-4o的表现。Claude 3.5 Sonnet现已在付费AI搜索引擎Perplexity Pro上推出。

在社交媒体X,不少第三方测评团队也给出了试用结论,相比于GPT-4o,Claude 3.5 Sonnet几乎成了推理、语言、编程、数据分析、数学和指令遵循方面的“六边形战士”。

Claude 3.5 Sonnet不仅超过其已发最强模型Claude 3 Opus,在速度和成本方面,Claude 3.5 Sonnet也与Anthropic的中端型号Claude 3 Sonnet旗鼓相当——运行速度是Claude 3 Opus的两倍,成本仅1/5。

在内部代理编码评估中,Claude 3.5 Sonnet成功解决了64%的问题,表现优于仅解决了38%的Claude 3 Opus。在得到指导和相关工具后,Claude 3.5 Sonnet 能够独立编写、编辑和执行代码,并具备复杂的推理和故障排除能力。

有网友在社交平台X贴出使用体验,仅仅25秒,Claude 3.5 Sonnet帮他编写了一个功能整齐的游戏程序。

二、最强视觉模型,多测评超GPT-4o,图表识别能力炸场

Claude 3.5 Sonnet也是Anthropic目前最强大的视觉模型。

它在标准视觉基准测试中超越了Claude 3 Opus。对于需要视觉推理的任务,如解释图表和图形,这些改进尤为显著。此外,Claude 3.5 Sonnet还能准确地从质量不高的图像中转录文本。

如下图所示,在多项权威测评中Claude 3.5 Sonnet超过了GPT-4o,在所有测评中超越了Gemini 1.5 Pro。

如下图所示,Claude 3.5 Sonnet可以快速识别PDF文件内容并输出折线图。

当被继续要求生成网页演示内容,Claude 3.5 Sonnet也可以胜任。

三、颠覆对话式协作,交互升级,四步编程并渲染游戏

现在,Anthropic还将在Claude.ai上推出Artifacts这一新功能,相当于一个预览功能,用以丰富用户与Claude的互动方式。

当用户请求Claude生成代码片段、文本文档或网站设计等内容时,这些Artifacts将在一个专用窗口中与对话一同展示。这为用户提供了一个动态工作区,他们可以实时查看、编辑和构建Claude的创作,将AI生成的内容融入自己的项目和工作流程中。

这一功能的推出标志着Claude从对话式AI向协作式工作环境的进化。

如下图所示,如果要搭建一款游戏并预览效果,用户进需要四个步骤。

首先,输入文本让Claude 3.5 Sonnet生成一个特定大小和风格的角色。

然后,让Claude 3.5 Sonnet为类似风格的视觉要素编程。

紧接着,一个整体的游戏页面被搭建出来,用户可以随时看到代码的生成过程。

最后,就连游戏运行起来的效果,用户也可以通过Artifacts模式进行预览。

在社交媒体X上,有网友称“这太疯狂了”,认为工件+渲染窗口是最佳的编码方式。

作为Anthropic对安全和透明度的承诺,Anthropic最近已将Claude 3.5 Sonnet提供给英国人工智能安全研究所(UK AISI)进行部署前的安全评估,并与美国人工智能安全研究所(US AISI)分享了结果。

Anthropic称其模型开发的核心原则之一是保护隐私。除非用户明确允许,否则Anthropic不会使用用户提交的数据来训练生成模型。Anthropic称其到目前为止未使用任何用户数据来训练生成模型。

结语:OpenAI劲敌出手,追击GPT-4o

Anthropic被认为是OpenAI最强竞争对手之一,Claude 3.5 Sonnet是Claude 3.5系列首款产品,今年晚些时候推出的Claude 3.5 Haiku和Claude 3.5 Opus,是等待OpenAI的后招。

除了研发下一代模型系列,Anthropic还在开发支持企业应用的功能和模式,包括与企业应用程序的集成。Anthropic的团队还在探索诸如“记忆”这样的功能,让Claude能够记住用户的偏好和特定的交互历史,从而提供更加个性化和高效的用户体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今天同学聚会,AI让我穿成这样

今天同学聚会,AI让我穿成这样

视觉志
2026-02-21 08:43:29
8万澳洲人联名请愿! 必须把她驱逐出境! 这个女生仅8个月就拿到PR

8万澳洲人联名请愿! 必须把她驱逐出境! 这个女生仅8个月就拿到PR

澳微Daily
2026-02-21 15:03:23
央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

白色得季节
2026-01-27 21:30:49
蓝营的家事在大年初二炸开了锅

蓝营的家事在大年初二炸开了锅

时尚的弄潮
2026-02-21 14:00:13
巴西天才西甲数据对比:内马尔123场68球49助,维尼修斯229场69球46助

巴西天才西甲数据对比:内马尔123场68球49助,维尼修斯229场69球46助

懂球帝
2026-02-21 20:03:15
徐梦桃老公新身份曝光!网友:这是备奥期间考了个博又结了个婚?

徐梦桃老公新身份曝光!网友:这是备奥期间考了个博又结了个婚?

师维
2026-02-21 17:22:16
NBA总收入前十榜单:詹姆斯1.326亿美元居首 詹库杜全超1亿前三

NBA总收入前十榜单:詹姆斯1.326亿美元居首 詹库杜全超1亿前三

醉卧浮生
2026-02-21 00:31:25
美国全球打击司令部新任司令:中国并不具备研发轰-20的能力

美国全球打击司令部新任司令:中国并不具备研发轰-20的能力

飘逸的云朵
2026-02-21 20:55:46
不上市的字节,正在改写中国互联网的战争规则

不上市的字节,正在改写中国互联网的战争规则

新浪财经
2026-02-15 23:17:51
善恶终有报!49岁的李铁再传噩耗,终是为自己的贪婪付出代价

善恶终有报!49岁的李铁再传噩耗,终是为自己的贪婪付出代价

痞子时代
2026-02-12 15:36:53
80年代中美蜜月期,中国拿了多少美械装备?该告诉大家实情了!

80年代中美蜜月期,中国拿了多少美械装备?该告诉大家实情了!

小松历史菌
2025-09-28 21:55:18
春节档成定局:《镖人》反超《惊蛰》,《飞驰3》助韩寒成大佬

春节档成定局:《镖人》反超《惊蛰》,《飞驰3》助韩寒成大佬

尘飞扬说电影
2026-02-21 11:39:57
张一山跟发小聚会!新家又大又豪,别人都大叔了,他还像个小孩子

张一山跟发小聚会!新家又大又豪,别人都大叔了,他还像个小孩子

科学发掘
2026-02-21 19:56:09
别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

流苏晚晴
2026-01-02 17:56:17
1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

1986年陈永贵病逝,追悼会规格成难题,邓小平只说了一句话,全场安静

寄史言志
2026-01-04 16:34:31
为什么越来越多的人不去洗车店洗车了?

为什么越来越多的人不去洗车店洗车了?

另子维爱读史
2026-02-16 23:19:21
孩子过年收2万压岁钱,妈妈要求上交,孩子:是长辈给自己的,应由自己保管,法院:父母可为孩子代为保管,但不得随意使用

孩子过年收2万压岁钱,妈妈要求上交,孩子:是长辈给自己的,应由自己保管,法院:父母可为孩子代为保管,但不得随意使用

大象新闻
2026-02-20 09:48:03
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
Claude Code之父直言:1个月后不用Plan Mode,软件工程师将消失

Claude Code之父直言:1个月后不用Plan Mode,软件工程师将消失

魏家东
2026-02-21 09:50:35
戴安娜秘密录音曝光:和查尔斯一周三次夫妻生活,他却想当卡米拉卫生棉

戴安娜秘密录音曝光:和查尔斯一周三次夫妻生活,他却想当卡米拉卫生棉

小鱼爱鱼乐
2026-02-17 07:05:58
2026-02-21 21:27:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11245文章数 116973关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

张艺谋新片带火深圳 观众留"后遗症":见垃圾桶就想掏

头条要闻

张艺谋新片带火深圳 观众留"后遗症":见垃圾桶就想掏

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
艺术
房产
健康
教育

数码要闻

RX 9070 XT加价后无人问津:日本AMD显卡售价已从高峰下滑20%!

艺术要闻

270亿美元!全球最大城市公园一期项目,今年完工

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

转头就晕的耳石症,能开车上班吗?

教育要闻

家庭教育中,低认知和高认知家长的区别?

无障碍浏览 进入关怀版