网易首页 > 网易号 > 正文 申请入驻

Anthropic的Claude 4.5:编码测试中击败所有人类考生,实力惊人!

0
分享至

html

  • Anthropic的Claude Opus 4.5 AI模型在公司自己的编码测试中超越了所有人类考生。
  • 这项为期两小时的工程考试主要考察在时间压力下的技术能力和判断力。
  • 这个新版本是Anthropic在AI编码工具领域又一个重要的进展。

Anthropic的新AI模型在编码方面超越了人类,该公司在其最新发布中表示。

周一,该公司推出了Claude Opus 4.5,并将其描述为迄今为止最先进的AI模型,并表示新模型在公司为未来工程候选人设计的“广受诟病的困难家庭作业考试”中“得分高于任何人类考生”。

在周一的一篇博客文章中,Anthropic表示,这项为期两小时的家庭作业测试旨在评估在时间压力下的技术能力和判断力,虽然这并不能反映工程师所需的所有技能,但AI模型在“重要技术技能上超越了优秀候选人”这一事实,引发了人们对“AI将如何改变工程职业”的思考。

在其方法中,该公司表示,这一结果来自于给模型多次解决每个问题的机会,然后选择其最佳答案。

关于工程测试的具体内容,公开的信息很少。2024年在Glassdoor上发布的一篇面试评论提到,该测试分为四个级别,并要求候选人实现一个特定的系统并为其添加功能。目前尚不清楚Claude 4.5所参加的测试是否类似。Anthropic在其博客中没有提供更多细节,也没有回应评论请求。

最新发布的Claude 4.5是在其前一版本推出三个月后发布的。除了编码,新模型在生成专业文档方面也进行了升级,比如Excel表格和PowerPoint演示文稿。

新版本进一步巩固了Anthropic在AI编码领域的主导地位。即使是马克·扎克伯格的Meta也在使用Claude来支持其Devmate内部编码助手,尽管双方在AI竞赛中是竞争对手。

该公司一直对其训练方法保持保密。Stackblitz的首席执行官Eric Simons,该公司是vibe编码服务Bolt.new的创始公司,之前告诉《商业内幕》他相信Anthropic让其AI模型独立编写和发布代码,然后公司通过人类和AI工具对结果进行审查。Anthropic的产品管理、研究和前沿部门负责人Dianne Penn表示,这一描述“基本上是正确的”。

在十月份,Anthropic首席执行官Dario Amodei在Dreamforce大会上表示,Claude AI已经为公司大部分团队编写了90%的代码,尽管他表示不会用这个机器人替代任何软件工程师。

“如果克劳德正在编写 90% 的代码,这通常意味着你需要同样数量的软件工程师。你可能需要更多的软件工程师,因为他们可以更有效地工作,”阿莫代说。“他们可以专注于那10%的代码编辑,或者编写最难的那10%,或者负责监督一组AI模型。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宁愿被分走千万财产,也要离婚娶新欢的马琳,如今过得还好吗?

宁愿被分走千万财产,也要离婚娶新欢的马琳,如今过得还好吗?

科学发掘
2026-02-22 19:46:03
为什么成功人士的精力都非常旺盛?网友:累了困了随时休息

为什么成功人士的精力都非常旺盛?网友:累了困了随时休息

夜深爱杂谈
2026-02-22 21:11:21
美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

美国人意识到,贸易战之后,不会再有中国外的大规模工业化国家了

沧海旅行家
2026-01-14 14:44:50
史诗级暴击!印尼砍碎旧秩序,全球镍价要狂飙?

史诗级暴击!印尼砍碎旧秩序,全球镍价要狂飙?

知识TNT
2026-02-22 14:04:57
3-0!意甲黑马崛起:罗马甩开尤文4分有望争二,米兰差10分难争冠

3-0!意甲黑马崛起:罗马甩开尤文4分有望争二,米兰差10分难争冠

体育知多少
2026-02-23 07:28:40
联想停止为Legion Go掌机更新驱动,上市不到两年

联想停止为Legion Go掌机更新驱动,上市不到两年

IT之家
2026-02-22 13:21:57
张作霖的厨子晚年坦言:大帅饭桌上有个不成文的规矩,谁碰谁倒霉

张作霖的厨子晚年坦言:大帅饭桌上有个不成文的规矩,谁碰谁倒霉

千秋文化
2026-02-15 19:32:40
“开了12小时,还要12小时!”返杭男子:车上鸡鸭鱼肉要臭了;回杭多个入口关闭

“开了12小时,还要12小时!”返杭男子:车上鸡鸭鱼肉要臭了;回杭多个入口关闭

环球网资讯
2026-02-22 18:44:14
登上访华飞机前,默茨收到一则严重警告,欧洲小国称:绝不跪中国

登上访华飞机前,默茨收到一则严重警告,欧洲小国称:绝不跪中国

贾文彬的史书
2026-02-23 09:10:36
铁饭碗排名:公务员跌至第8,第1太意外!

铁饭碗排名:公务员跌至第8,第1太意外!

山东教育
2026-02-22 20:40:12
骑士113-121终结7连胜,四大首发谁拉垮?数据说话

骑士113-121终结7连胜,四大首发谁拉垮?数据说话

徐徐解说
2026-02-23 05:12:32
中央5台直播乒乓球:2月23日CCTV5、CCTV5+最新节目单 附国乒赛程

中央5台直播乒乓球:2月23日CCTV5、CCTV5+最新节目单 附国乒赛程

郝小小看体育
2026-02-23 00:07:22
鹅粉砸了重金的「俄罗斯娜娜」,原来是中国大妈,可她毕竟温暖了多少人夜里难眠的心……

鹅粉砸了重金的「俄罗斯娜娜」,原来是中国大妈,可她毕竟温暖了多少人夜里难眠的心……

家传编辑部
2026-02-22 16:40:47
上海解放后,陈毅让黄金荣扫大街,老蒋知道后缓缓吐露出4个字

上海解放后,陈毅让黄金荣扫大街,老蒋知道后缓缓吐露出4个字

史之铭
2026-01-04 01:09:56
课本中被夸上天的3个历史名人,都坏到了骨子里,却骗过了很多人

课本中被夸上天的3个历史名人,都坏到了骨子里,却骗过了很多人

寻途
2026-02-22 22:04:52
微信出现这一条杠杠,代表好友把你移出了

微信出现这一条杠杠,代表好友把你移出了

我不叫阿哏
2026-02-22 01:35:42
新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

新婚女子手臂成亮点,“满眼都是xxx”,难道新郎一点都不在乎?

仙仙先生
2026-01-30 09:35:22
炸了!名宿怒喷利物浦废柴:全场最烂,12 次丢球太离谱

炸了!名宿怒喷利物浦废柴:全场最烂,12 次丢球太离谱

奶盖熊本熊
2026-02-23 03:27:25
当利润跌破4%,一场比新车更惨烈的战争开始了

当利润跌破4%,一场比新车更惨烈的战争开始了

大佬灼见
2026-02-20 09:03:49
美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

环球网资讯
2026-02-23 07:55:13
2026-02-23 10:04:49
奇思妙想生活家
奇思妙想生活家
探索生活的奇思妙想,分享独特见解和实用小窍门,让你的日常生活更有趣、更有品位!
582文章数 3223关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

22岁谷爱凌创纪录 曾因失败被网暴:他们不会原谅我了

头条要闻

22岁谷爱凌创纪录 曾因失败被网暴:他们不会原谅我了

体育要闻

谷爱凌:6次参赛6次夺牌 我对自己非常自豪

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
旅游
健康
本地
公开课

教育要闻

长沙轨道交通职业学院是公办还是民办?别踩坑!

旅游要闻

游客打车九折司机被迫“出血”文旅促销需算清“成本账”与“公平账”|热点即阅

转头就晕的耳石症,能开车上班吗?

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版