网易首页 > 网易号 > 正文 申请入驻

OpenAI最强竞对Claude再次出牌

0
分享至

出品|虎嗅科技组

作者|余杨

编辑|苗正卿

头图|视觉中国

10月22日,由Anthropic开发的Claude 3.5迎来重磅升级,发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。

Claude模型也被称为“十四行诗”(Sonnet),Anthropic公司在为其模型命名时,借鉴了文学艺术作品中的术语,其中包括“俳句”(Haiku)、“十四行诗”(Sonnet)和“杰作”(Opus),这些名称不仅代表了模型的不同版本,也反映了它们在功能和性能上的特点。

Claude 3.5 Sonnet 有着更强的编程能力,全新功能的computer use(计算机使用),支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。

目前,Claude 3.5 Sonnet 已投入使用。

Claude系列大语言模型,一直被广泛认为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X中发布了模型基准测试结果,与GPT和Gemini在多个领域进行横向对比。

这些领域包括研究生水平的推理能力(GPQA Diamond)、本科生水平的知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决能力(MATH)、视觉问答能力(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试(GPQA Diamond)中,Claude 3.5 Sonnet以65.0%的准确率拔得头筹,Claude 3.5 Haiku则以41.6%的准确率则稍显逊色。而Gemini 1.5 Pro 的准确率为59.1%,居于第二。在本科生水平知识测试(MMLUPro)中,Claude 3.5 Sonnet再次以78.0%的准确率领先,而Gemini 1.5 Pro 则以75.8%的准确率紧随其后。

在此次主打的代码编写能力测试(Code HumanEval)中,Claude 3.5 Sonnet以93.7%的准确率取得了最佳成绩,GPT-4o系列模型在这一测试中也展现了不错的性能,准确率为90.2%和87.2%。

虽然在数学问题解决测试(MATH)中,Claude 3.5系列稍显逊色,Gemini 1.5 Pro 仍然碾压全场,但对于视觉问答测试(MMMU)和代理编码测试(SWE-bench Verified),Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的表现。

而TO B的代理工具使用测试(TAU-bench),则直接关系到大模型的应用能力,此次主要测试了零售和航空领域。Claude 3.5 Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,而Claude 3.5 Haiku在零售和航空领域的准确率分别为51.0%和22.8%。

需要注意的是,OpenAI的o1模型家族由于其依赖于广泛的预响应计算时间,与典型模型存在根本差异,这使得性能比较变得困难,因此在本次评估中被排除在外。

这可能不够具像化。

Anthropic提供了一个演示,在2分钟的视频中,研究员给Claude提出了一个指令:

我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?

Claude的回应首先是,“让我搜索谷歌寻找最佳日出观赏地点”,并自行打开了Google开始搜索。

Claude以用户的居住地为出发点,在地图中check了驾驶时间,随后,Claude不仅打开了一个新的网页确认明天的日出时间,还在日历中设置了行程提醒,并附上了Notes,URL和附件。

开发者展示出Claude如何操控了自己的笔记本电脑,丝滑地完成了一个任务。

Anthropic表示,“我们并没有制作特定工具来帮助 Claude 完成单个任务,而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。我们构建了一个 API,使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究”。

在其他的demo中,开发者还让Claude填写了一份来自蚂蚁设备公司的供应商请求表,需要填写的数据散布在电脑的各个角落,Claude跨应用进行了搜索,切换到CRM系统中,滚动页面,查找填表所需的所有信息,然后提交了表格。

AI操作电脑的能力代表了一种全新的人工智能开发方法,国内开发者也显示出在该领域深入的努力。

10月23日,在荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展现出 AI 手机端操作能力的类似特质,不仅帮演示者提交了咖啡订单,还填写了博物馆场馆预约信息。

一部分关注者对此满怀期待,认为这意味着工作中许多不得不做的繁琐事项,都可以交由AI 代劳了。

不过,虽然Claude已经取得了一些成绩,但我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。

并且,它的操作仍然相对缓慢,且像人类一样会出错。在一次演示中,Claude不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都付诸东流。而在另一次编码演示中,Claude则突然“走神”,开始饶有兴趣地浏览起黄石国家公园的照片。

但瑕不掩瑜,这并不妨碍我们像莎士比亚一样,将Claude的新技术比作“夏日”。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2010年李敖之子入读北大,对记者说韩寒算老几啊,韩寒:我无所谓

2010年李敖之子入读北大,对记者说韩寒算老几啊,韩寒:我无所谓

凉州辞
2026-04-09 09:45:03
关注:董宇辉会坐牢吗?

关注:董宇辉会坐牢吗?

叶初七
2026-04-10 10:55:42
陈梦于青岛中山公园樱花大道被偶遇,白色大衣尽显优雅美丽气质

陈梦于青岛中山公园樱花大道被偶遇,白色大衣尽显优雅美丽气质

小椰的奶奶
2026-04-09 17:59:31
太让人心疼!程晓玥自曝遭郑恺分手,情绪崩溃,疯狂工作走出伤痛

太让人心疼!程晓玥自曝遭郑恺分手,情绪崩溃,疯狂工作走出伤痛

一盅情怀
2026-04-10 18:11:48
4月起必办!2个证件全国发放,人人都有,没领的得抓紧办了

4月起必办!2个证件全国发放,人人都有,没领的得抓紧办了

流史岁月
2026-04-10 15:00:09
央视直播!中超争冠大战:上海德比+国安vs蓉城,2种情况榜首易主

央视直播!中超争冠大战:上海德比+国安vs蓉城,2种情况榜首易主

球场没跑道
2026-04-10 17:09:14
27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

27岁单亲妈妈开直播,播着播着睡着了,醒来一看后台直接傻眼了

小椰的奶奶
2026-04-01 17:04:55
Netflix下架《边境杀手》:9.1分神作只剩7天

Netflix下架《边境杀手》:9.1分神作只剩7天

追星雷达站
2026-04-09 15:51:39
官方:李玮锋出任中甲宁波队主教练,此前球队主帅杨林辞职

官方:李玮锋出任中甲宁波队主教练,此前球队主帅杨林辞职

懂球帝
2026-04-10 18:53:09
伊朗新领袖果然好猛,3句话一锤定音!美高层对中国说出肺腑之言

伊朗新领袖果然好猛,3句话一锤定音!美高层对中国说出肺腑之言

阿伧说事
2026-04-10 16:12:09
台当局取消丹麦“驻台代表”礼遇

台当局取消丹麦“驻台代表”礼遇

参考消息
2026-04-09 13:37:11
沪市主板ST股,涨跌停板从5%调至10%

沪市主板ST股,涨跌停板从5%调至10%

21世纪经济报道
2026-04-10 17:40:23
伊朗最高领袖发话了,10大条件砍到3条,悄然做出重大让步

伊朗最高领袖发话了,10大条件砍到3条,悄然做出重大让步

相思赋予谁a
2026-04-10 18:25:56
全都逃不掉!全红婵霸凌证据提交,陈都灵遭殃,陈芋汐做法太高明

全都逃不掉!全红婵霸凌证据提交,陈都灵遭殃,陈芋汐做法太高明

陈意小可爱
2026-04-10 17:57:27
为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能顺利落地,解放军果断亮出底牌,痛击台独要害

标体
2026-04-07 16:23:59
东亚已闻战鼓,30国大使急赴东京,高市早苗的枪口早已悄然转向

东亚已闻战鼓,30国大使急赴东京,高市早苗的枪口早已悄然转向

无人倾听无人倾听
2026-04-10 16:27:10
难怪张柏芝准备寿衣遗照!谢霆锋不再隐瞒,终于坦白不娶王菲原因

难怪张柏芝准备寿衣遗照!谢霆锋不再隐瞒,终于坦白不娶王菲原因

兴史兴谈
2026-04-10 06:52:40
港媒关注辱骂全红婵聊天记录取证问题:群内牵涉人员均未作出回应

港媒关注辱骂全红婵聊天记录取证问题:群内牵涉人员均未作出回应

东方不败然多多
2026-04-10 18:15:00
美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

澎湃新闻
2026-04-08 20:56:27
体育总局公布本科保送拟推荐名单:赵睿上体,曾凡博北科大

体育总局公布本科保送拟推荐名单:赵睿上体,曾凡博北科大

懂球帝
2026-04-10 12:19:08
2026-04-10 19:15:01
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
26076文章数 687667关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

王毅访问朝鲜会否同金正恩会面 外交部回应

头条要闻

王毅访问朝鲜会否同金正恩会面 外交部回应

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

创业板改革制度落地 增设第4套上市标准

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

亲子
手机
游戏
教育
公开课

亲子要闻

小样,我还治不了你?

手机要闻

消息称三星上调4月Galaxy S26系列手机产量至300万台

10个月逼近PS5总销量三分之二!Switch2日本表现惊人

教育要闻

30名!2025海淀高级、中级校长评定名单来了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版