网易首页 > 网易号 > 正文 申请入驻

加强版Claude3.5正式上线,一句话操控电脑的时代真的要来了。

0
分享至

夜里十一点,大洋彼岸早上8点整。

Claude带着大货闪亮登场了。

升级版的Claude 3.5 Sonnet,新模型Claude 3.5 Haiku,还有全新的新功能:computer use,翻译过来后,我把他称为,“计算机操控”。

一个一个来说。

首先新模型升级版Claude 3.5 Sonnet。

Claude的模型一直分为三个尺寸,分别是Opus、Sonnet、Haiku。从大到小。

3月的时候,Claude正式推出Claude 3代的全系模型,从Opus到Haiku都有。

然后6月的时候推出了Claude 3.5 Sonnet,只推了这一个,没有3.5 Opus和Haiku,参见这篇文章:

那时候Claude 3.5 Sonnet的能力就吊打了旧的最大参数的模型。

而今天,推送的是升级版的Claude 3.5 Sonnet,还有新的Claude 3.5 Haiku。

有趣的是,Claude 3.5 Haiku还是后训的,知识截止时间是7月,而升级版Claude 3.5 Sonnet知识时间并没有变,也就是加了更多的强化学习的合成数据以及“计算机控制”的训练。

而Claude 3.5 Sonnet的整体性能上,基本傲视群雄。

不管是推理、还是本科的知识、还是编程能力啥的,都是No.1,而且Claude的跑分不像很多模型那种刷榜,他的跑分是真的可信的。

我相信6月Claude 3.5 Sonnet上线后,直接一波科技跃迁,带着cursor之类的A编程一波升天,就不会有任何人会怀疑Claude的代码能力了吧。

最特别的评测基准其实是那个第七行的SWE-bench Verified,大概就是测试写代码解决问题的真实能力,这个评测基准是8月份OpenAI提的,然后这波Claude 3.5直接把这个基准加在自己的跑分里。

GPT4o在这项的跑分是33.2%,o1不知道。

但是按Claude的话说,o1是个什么脏东西,不认识。

而新版的Claude 3.5 Sonnet,目前也在Claude官网上上线了。

可以看到有了new的标签。

我直接发了最简单的一句话:给我生成一个非常精美的俄罗斯方块游戏。

然后,升级版Claude 3.5 Sonnet,就开始嘟嘟嘟的生成。

直接一次性生成了280行代码,而且这个游戏,是真的可以直接玩的。。

也可以直接让它生成一个随时可调可互动的动效模拟器,彻底改变学习方式。

就,非常的酷。

其次是Claude 3.5 Haiku。

这个其实就没太多可说的了,常规升级,但是是目前最快、性价比最高的模型。

在跟Claude 3 Haiku的相同成本和速度下,直接击败了参数量最大的Claude 3 Opus。

在编码任务上,居然能直接打败没升级前的Claude 3.5 Sonnet,这个是最离谱的。

只能说,Anthropic的强化学习范式走的还是太超前了,合成数据的质量实在是太高太高了。

那最后,也是最重磅的一点,Claude的“computer use”,也就是新功能,计算机控制。

这个点就非常的科幻,能够实时分析用户计算机屏幕上的活动,并自主执行在线任务,比如浏览、点击和输入。

我直接放一个官方case吧。

Anthropic是这么描述这个“计算机控制”的功能的:“Claude 3.5 Sonnet可以按照用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的互动方式。”

这,就是一个能理解用户意图,并帮他自主实现的真正的Agent。

以前的Agent,说实话,看上去更像一个RPA,就是根据预设好的工作流,一步一步的执行下去,但是真正的Agent应该是什么样?

在我看来,他就应该跟人一样,能理解你的复杂语义,把这个复杂语义具象成可执行的步骤,就像我说现在“凌晨3点半了我太困了,但是文章还没有写完,你帮我看看附近有没有咖啡买,有的话帮我买一杯,没有的话就算了。”

如果是个人,那肯定是会打开美团外卖或者饿了么,看看附近有没有咖啡店开着,如果有开着的,看看我最喜欢喝的冰美式有没有的,没有冰美式的话问我一句要换什么口味?然后下单,等待送达。

如果3点半附近都关门了,那也应该告诉我,附近没卖的了,哥们你自己撑一撑吧,一会就能睡了。

这才是AI,这才是我们身边,能进入到普通人生活中的,最酷的AI助手。

而这种AI助手,它势必,需要学会操作手机或者电脑。

我们不止要让AI学会写文章,学会画图,也要让他学会操作。

这样,才能有很强的,自主探索、解决问题的泛化能力。

而升级版Claude 3.5 ,只是在一些简单软件上进行了训练,就有了操作一些不复杂软件的能力,甚至还会自我纠错,不断重试,这又何尝不是一种强化学习、自我博弈呢?

Anthropic,真的吧Self-Play玩出花了。

目前,在测试开发者让模型使用计算机的一个基准评估(OSWorld)中,Claude 目前得分为 14.9%。

而人类水平通常为 70-75%,虽然差距很大,还有一些路要走,但已经远高于目前其他最好AI模型的7.7%这个分数了。

不过现在这个功能普通用户还用不到,只对开发者进行开放,有API接入,Anthropic的本意是还在前期测试阶段,怕有危险,所以让开发先帮忙测试一下。

我们也花了N久时间,把API接入进来,做了一些简单的测试。

先装了一个类似于模拟系统的东西,一切行为都会在这个模拟系统里运行,Anthropic还是怕对你的系统会有一个不可逆转的损害影响。

我测了很多个case,但是说实话,一是速度实在太磨叽了...二是成功率,确实还有点低下。

比如这个案例:“打开淘宝网站页面,找到小米手机官方旗舰店,找一个2000左右的手机,加到购物车。”

其实不算难,说实话。

但是Claude翻车了,翻车的点也很搞笑,是在输入店名上,人明明叫小米官方旗舰店,它非要写“方店”,后面又试了一次,这次连两个字都不写了,直接写了一个字“舰”,这能搜到才有鬼了...

而且,这个视频我已经两倍速了,你们可以感受一下它有多慢。。

不过,让他玩2048,它玩的倒是非常的开心。这一次,是三倍速。

玩的还挺好,我感觉在这放着,他一个人能玩到天荒地老。

这倒也是挺有趣的。

当然,也能做一些很实际的事情,比如给我的浏览器装一个可以屏蔽广告的插件。

他居然把插件地址背下来了,直接输入,给我搜索+安装一步到位。

起飞。

虽然总体任务的成功率还比较一般,但是还好,毕竟Claude自己也说了,成功率没那么高。

而且,这只是第一代。

他们坚信,使模型适应工具,这是必然,而模型也可以融入我们每天使用的环境里,成为我们生活的方方面面。

他们的目标是让Claude使用现有的计算机软件,就像人一样。

就像人一样。

真好。

希望这个愿景,能在不远的未来达成。

我真的,很想拥有一个自己的。

贾维斯。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、东毅

>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
毁掉一个家庭最快的方式:让亲戚、朋友、父母都来“帮忙”

毁掉一个家庭最快的方式:让亲戚、朋友、父母都来“帮忙”

木言观
2026-06-23 22:46:39
《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

心理观察局
2026-06-22 06:55:14
坎塞洛:C罗无需向任何人证明什么;我们清楚首战中的不足

坎塞洛:C罗无需向任何人证明什么;我们清楚首战中的不足

懂球帝
2026-06-23 10:45:38
黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

黄长烨进入韩国使馆避难,中方集结武警筑起防线阻拦朝方人员

磊子讲史
2026-06-22 15:59:52
WPS被骂上热搜!占满C盘致电脑卡顿,商业套路被扒,遭网友怒斥!

WPS被骂上热搜!占满C盘致电脑卡顿,商业套路被扒,遭网友怒斥!

谭谈社会
2026-06-21 19:10:56
扎心?梅西2场5球平C罗3届进球数!名宿:C罗给梅西系鞋带都不配

扎心?梅西2场5球平C罗3届进球数!名宿:C罗给梅西系鞋带都不配

我爱英超
2026-06-23 05:01:12
孙兴慜被换下不是状态差!有人故意不传球,逼他让出队长袖标

孙兴慜被换下不是状态差!有人故意不传球,逼他让出队长袖标

酷侃体坛
2026-06-23 09:58:59
“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

“开家长会怎么办?”另类小情侣被嘲,孩子出生自带“满背”!

林林先生
2026-06-21 10:10:03
娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

娜然辱华言论曝光,霍家婚讯紧急刹车,郭晶晶一句话把门堵死了

李橑在北漂
2026-06-22 16:20:54
历史性时刻!41岁C罗疯狂怒吼,连续6届世界杯破门,刷爆5大纪录

历史性时刻!41岁C罗疯狂怒吼,连续6届世界杯破门,刷爆5大纪录

等等talk
2026-06-24 01:56:19
特雷杨续约最大受害者!堂堂状元郎,32岁被交易,33岁又被交易?

特雷杨续约最大受害者!堂堂状元郎,32岁被交易,33岁又被交易?

球毛鬼胎
2026-06-23 16:57:47
柬埔寨前五个月国际游客暴跌近48% 仅剩154万人次

柬埔寨前五个月国际游客暴跌近48% 仅剩154万人次

曼谷陈大叔
2026-06-23 17:37:13
成都产业投资集团原董事长石磊接受审查调查

成都产业投资集团原董事长石磊接受审查调查

界面新闻
2026-06-23 17:15:38
“又穷又想让孩子成才”,一份廉价垃圾堆花束,让中考家长火了

“又穷又想让孩子成才”,一份廉价垃圾堆花束,让中考家长火了

熙熙说教
2026-06-22 19:27:11
江苏这场“降级”风暴,撕开了多少体制内的遮羞布?

江苏这场“降级”风暴,撕开了多少体制内的遮羞布?

娱乐洞察点点
2026-06-23 18:03:55
两性关系:不管你信不信,女性过了45岁后,基本都有这7个现状

两性关系:不管你信不信,女性过了45岁后,基本都有这7个现状

荔子言
2026-06-11 13:28:05
A股唯一一家,高盛重仓存储芯片+先进封装+磷化铟,市值仅百亿

A股唯一一家,高盛重仓存储芯片+先进封装+磷化铟,市值仅百亿

长风价值掘金
2026-06-23 17:09:56
阿邦拉霍:维拉若签下梅西,英超冠军、欧冠冠军统统收入囊中

阿邦拉霍:维拉若签下梅西,英超冠军、欧冠冠军统统收入囊中

懂球帝
2026-06-23 21:21:38
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
广西要建辞去公职人员公开公示制度 这篇组织部署名文章透露哪些监管信号?

广西要建辞去公职人员公开公示制度 这篇组织部署名文章透露哪些监管信号?

红星新闻
2026-06-23 19:02:33
2026-06-24 02:52:49
数字生命卡兹克 incentive-icons
数字生命卡兹克
反复横跳于不同的AI领域,努力分享一些很酷的AI干货
540文章数 669关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

艺术
健康
亲子
家居
旅游

艺术要闻

高约400米!深圳湾金融中心大厦,冲出正负零

同样是中风,急救方向竟完全相反?

亲子要闻

炮哥的媳妇怀二胎长胖了20斤,炮哥却担心没人带,听听他怎么说

家居要闻

绿意盎然 自然之境

旅游要闻

端午假期忻州市累计接待游客98.29万人次,同比增长10.31%

无障碍浏览 进入关怀版