网易首页 > 网易号 > 正文 申请入驻

OpenAI最强竞对Claude再次出牌

0
分享至

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

10月22日,由Anthropic开发的Claude 3.5迎来重磅升级,发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模型也被称为“十四行诗”(Sonnet),Anthropic公司在为其模型命名时,借鉴了文学艺术作品中的术语,其中包括“俳句”(Haiku)、“十四行诗”(Sonnet)和“杰作”(Opus),这些名称不仅代表了模型的不同版本,也反映了它们在功能和性能上的特点。

Claude 3.5 Sonnet 有着更强的编程能力,全新功能的computer use(计算机使用),支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。

目前,Claude 3.5 Sonnet 已投入使用。

Claude系列大语言模型,一直被广泛认为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X中发布了模型基准测试结果,与GPT和Gemini在多个领域进行横向对比。

这些领域包括研究生水平的推理能力(GPQA Diamond)、本科生水平的知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决能力(MATH)、视觉问答能力(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试(GPQA Diamond)中,Claude 3.5 Sonnet以65.0%的准确率拔得头筹,Claude 3.5 Haiku则以41.6%的准确率则稍显逊色。而Gemini 1.5 Pro 的准确率为59.1%,居于第二。在本科生水平知识测试(MMLUPro)中,Claude 3.5 Sonnet再次以78.0%的准确率领先,而Gemini 1.5 Pro 则以75.8%的准确率紧随其后。

在此次主打的代码编写能力测试(Code HumanEval)中,Claude 3.5 Sonnet以93.7%的准确率取得了最佳成绩,GPT-4o系列模型在这一测试中也展现了不错的性能,准确率为90.2%和87.2%。

虽然在数学问题解决测试(MATH)中,Claude 3.5系列稍显逊色,Gemini 1.5 Pro 仍然碾压全场,但对于视觉问答测试(MMMU)和代理编码测试(SWE-bench Verified),Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的表现。

而TO B的代理工具使用测试(TAU-bench),则直接关系到大模型的应用能力,此次主要测试了零售和航空领域。Claude 3.5 Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,而Claude 3.5 Haiku在零售和航空领域的准确率分别为51.0%和22.8%。

需要注意的是,OpenAI的o1模型家族由于其依赖于广泛的预响应计算时间,与典型模型存在根本差异,这使得性能比较变得困难,因此在本次评估中被排除在外。

这可能不够具像化。

Anthropic提供了一个演示,在2分钟的视频中,研究员给Claude提出了一个指令:

我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?

Claude的回应首先是,“让我搜索谷歌寻找最佳日出观赏地点”,并自行打开了Google开始搜索。

Claude以用户的居住地为出发点,在地图中check了驾驶时间,随后,Claude不仅打开了一个新的网页确认明天的日出时间,还在日历中设置了行程提醒,并附上了Notes,URL和附件。

开发者展示出Claude如何操控了自己的笔记本电脑,丝滑地完成了一个任务。

Anthropic表示,“我们并没有制作特定工具来帮助 Claude 完成单个任务,而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。我们构建了一个 API,使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究”。

在其他的demo中,开发者还让Claude填写了一份来自蚂蚁设备公司的供应商请求表,需要填写的数据散布在电脑的各个角落,Claude跨应用进行了搜索,切换到CRM系统中,滚动页面,查找填表所需的所有信息,然后提交了表格。

AI操作电脑的能力代表了一种全新的人工智能开发方法,国内开发者也显示出在该领域深入的努力。

10月23日,在荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展现出 AI 手机端操作能力的类似特质,不仅帮演示者提交了咖啡订单,还填写了博物馆场馆预约信息。

一部分关注者对此满怀期待,认为这意味着工作中许多不得不做的繁琐事项,都可以交由AI 代劳了。

不过,虽然Claude已经取得了一些成绩,但我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。

并且,它的操作仍然相对缓慢,且像人类一样会出错。在一次演示中,Claude不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都付诸东流。而在另一次编码演示中,Claude则突然“走神”,开始饶有兴趣地浏览起黄石国家公园的照片。

但瑕不掩瑜,这并不妨碍我们像莎士比亚一样,将Claude的新技术比作“夏日”。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一生好酒又好色,却有惊世才华,留下无数经典作品让后世膜拜

一生好酒又好色,却有惊世才华,留下无数经典作品让后世膜拜

林雁飞
2025-12-17 13:53:59
13分4板11助!能执教哈登真好,阿特金森动情发声,还提到詹姆斯

13分4板11助!能执教哈登真好,阿特金森动情发声,还提到詹姆斯

巴叔GO聊体育
2026-02-12 12:42:18
上海爷叔7根金条+19万元现金被“蚂蚁搬家”!保姆一个举动引起警方注意,落网后辩称是老人送的!

上海爷叔7根金条+19万元现金被“蚂蚁搬家”!保姆一个举动引起警方注意,落网后辩称是老人送的!

新民晚报
2026-02-12 20:00:02
央视重磅发声!人民日报点名封杀!5位网红彻底凉凉,大快人心

央视重磅发声!人民日报点名封杀!5位网红彻底凉凉,大快人心

匹夫来搞笑
2026-02-12 20:08:11
心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

医学科普汇
2026-02-11 06:30:11
《生命树》结局:杀多杰,将贺清源爆头,孟德辉背后之人是汪谨梅

《生命树》结局:杀多杰,将贺清源爆头,孟德辉背后之人是汪谨梅

宇林网络
2026-02-12 06:40:09
34+16+8!疯了,河村勇辉杀疯了......

34+16+8!疯了,河村勇辉杀疯了......

篮球实战宝典
2026-02-12 16:26:28
北京:研究放宽医保个人账户使用范围,研究参保职工可使用医保个人账户资金购买符合条件的商业健康保险产品

北京:研究放宽医保个人账户使用范围,研究参保职工可使用医保个人账户资金购买符合条件的商业健康保险产品

北京商报
2026-02-12 19:54:15
郭德纲一家参加婚礼!11岁郭汾阳胖嘟嘟被宠上天,超黏哥哥郭麒麟

郭德纲一家参加婚礼!11岁郭汾阳胖嘟嘟被宠上天,超黏哥哥郭麒麟

阿废冷眼观察所
2026-02-12 08:13:41
巴萨球迷意难平!不止因为0-4马竞,更多在于以下五点!

巴萨球迷意难平!不止因为0-4马竞,更多在于以下五点!

吴紒爱体育
2026-02-13 08:42:27
俄军突袭乌克兰,泽连斯基被美国坑惨了?

俄军突袭乌克兰,泽连斯基被美国坑惨了?

贺文萍
2026-02-13 08:30:12
金价2月12日:大家提前做好准备,明后两天,金价可能更大变盘?

金价2月12日:大家提前做好准备,明后两天,金价可能更大变盘?

白浅娱乐聊
2026-02-12 19:40:40
场均21分,被联盟硬捧进全明星!作为建队基石,球队该考虑交易你

场均21分,被联盟硬捧进全明星!作为建队基石,球队该考虑交易你

老梁体育漫谈
2026-02-13 00:49:34
人生建议:多去做复利的事情。

人生建议:多去做复利的事情。

木言观
2026-02-10 20:19:33
孕妇占了我靠窗座位,我花1900升到头等舱,13分钟后听到哭声

孕妇占了我靠窗座位,我花1900升到头等舱,13分钟后听到哭声

普陀动物世界
2026-02-13 08:11:27
长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

长江和记:邀请巴拿马共和国进行磋商,就巴拿马港口问题积极寻求解决方案

界面新闻
2026-02-12 18:41:33
维汉通婚博主遭遇死亡威胁:这已经不是观点冲突,而是犯罪!

维汉通婚博主遭遇死亡威胁:这已经不是观点冲突,而是犯罪!

西域都护
2026-01-26 15:00:19
国家金融监管总局:2025年四季度末商业银行不良贷款余额3.5万亿元 较上季末减少241亿元

国家金融监管总局:2025年四季度末商业银行不良贷款余额3.5万亿元 较上季末减少241亿元

财联社
2026-02-12 19:12:12
梅西妻子安东内拉:以前我很害怕举重,因为觉得会让自己变壮

梅西妻子安东内拉:以前我很害怕举重,因为觉得会让自己变壮

懂球帝
2026-02-12 10:05:09
上海一“熊孩子”对电子元件好奇,狂拆小区16栋楼门禁收集电路板!被家长送到派出所写检查

上海一“熊孩子”对电子元件好奇,狂拆小区16栋楼门禁收集电路板!被家长送到派出所写检查

大象新闻
2026-02-12 17:45:06
2026-02-13 09:28:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25724文章数 687452关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻,业内解读

头条要闻

媒体:"反华先锋"遭受毁灭性打击 立总统依然冥顽不灵

头条要闻

媒体:"反华先锋"遭受毁灭性打击 立总统依然冥顽不灵

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

数码
时尚
游戏
房产
健康

数码要闻

内存、SSD、CPU都在涨价!杨元庆:今年联想PC销量可能略微下降 但平均价格上升

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

《007初露锋芒》再出新预告!定档5月27日发售

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版