网易首页 > 网易号 > 正文 申请入驻

OpenAI把黑客任务完成率刷到50%,安全圈却更焦虑了

0
分享至


2019年,AI破解一个漏洞需要人类专家10小时。现在,同样的任务,GPT-5.3 Codex用200万token预算就能做到50%成功率。Lyptus Research的最新测算显示,AI的进攻性网络能力正在以每5.7个月翻一倍的速度狂奔——比2019-2024年间的9.8个月周期快了近一倍。

token越多,AI"活"越久

这项研究用了METR时间跨度法,找了10位专业安全专家,设计了291个真实任务。核心发现很直白:给AI更多token,它能干更长的活

GPT-5.3 Codex在200万token预算下,平均能完成需要人类3.1小时的任务。预算提到1000万token,时间跨度直接跳到10.5小时。Opus 4.6表现相近。研究人员承认,这个增速可能还是被低估了——毕竟测试环境有硬性限制,真实的黑产场景可不会给AI设token天花板。

开源模型落后闭源约5.7个月,刚好是能力翻倍的周期差。换句话说,今天OpenAI和Anthropic手里的东西,半年后就会出现在Llama和DeepSeek的权重文件里。

50%成功率意味着什么

对安全从业者来说,50%不是及格线,是分水岭。

自动化攻击工具以前也有,但要么覆盖面窄(比如只扫特定CVE),要么需要人工调参。AI的不同在于通用性:同一个模型能读代码、写exp、绕过WAF、伪造钓鱼邮件。Lyptus的测试任务覆盖了渗透测试全流程,从初始访问到权限维持。

一位参与测试的安全专家「匿名」反馈:最麻烦的不是AI做对的事,是它做错的方式——"它会生成看似合理的payload,但触发条件有细微偏差,这种半真半假的输出比完全胡扯更难排查。"

研究者的自我怀疑

报告里有个细节很少被提及:作者团队主动标注了研究的局限性。

291个任务全部来自公开数据集和授权渗透测试,没有涉及真实生产环境。token预算的上限也人为压低了——现实中,调用API的成本下降速度比模型能力提升更快,黑产团伙完全可以负担更大规模的调用。研究团队把原始数据和代码扔上了GitHub和Hugging Face,相当于邀请所有人来证伪。

这种开放姿态本身说明问题。AI安全研究有个尴尬的传统:发现风险→私下通知厂商→等补丁→公开细节。Lyptus选择直接发报告,理由是"能力增长速度已经超过了协调响应的速度"。

数据、代码、方法论全公开。下一个问题是:防御方的工具,能不能也按5.7个月的周期迭代?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吴宜泽夺冠全网谢塞尔比,翻开师承簿才知:真正的大佬藏得太深了

吴宜泽夺冠全网谢塞尔比,翻开师承簿才知:真正的大佬藏得太深了

小娱乐悠悠
2026-05-06 10:04:00
1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

1936年亲手活捉蒋介石的孙铭九:建国后,上级部门破例为他谋工作

磊子讲史
2026-01-22 10:13:17
追觅俞浩直戳小米痛处!雷军精力被透支,网友:真敢说

追觅俞浩直戳小米痛处!雷军精力被透支,网友:真敢说

雷科技
2026-05-06 16:01:31
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
DeepSeek V4 发布后遇冷,开发者只聊Codex:便宜不是万能药

DeepSeek V4 发布后遇冷,开发者只聊Codex:便宜不是万能药

雷科技
2026-05-06 21:25:43
联想新本轻到我以为快递丢了

联想新本轻到我以为快递丢了

薛定谔的BUG
2026-05-05 21:05:26
江波龙,利润飙升2600%!

江波龙,利润飙升2600%!

投研邦V
2026-05-06 19:47:54
罗德里格斯干了什么!掌权百天,国家不仅没打内战,反而蒸蒸日上

罗德里格斯干了什么!掌权百天,国家不仅没打内战,反而蒸蒸日上

铁锤侃侃而谈
2026-05-06 09:58:10
凯莉·詹娜漂眉翻车:1.1万小时高定裙与30分钟染眉灾难

凯莉·詹娜漂眉翻车:1.1万小时高定裙与30分钟染眉灾难

影视情报室
2026-05-05 20:25:54
湖北一酒店开在公安局大院内 客人:住在这儿 晚上都不用关门了

湖北一酒店开在公安局大院内 客人:住在这儿 晚上都不用关门了

闪电新闻
2026-05-06 19:50:44
谁是曼联队史最烂引援?不是安东尼不是博格巴,7300 万彻底白花

谁是曼联队史最烂引援?不是安东尼不是博格巴,7300 万彻底白花

澜归序
2026-05-06 01:59:46
王灿认栽!带5岁女儿烫卷发遭全网炮轰,急删视频道歉:我的错

王灿认栽!带5岁女儿烫卷发遭全网炮轰,急删视频道歉:我的错

科学发掘
2026-05-06 05:19:58
内部人士爆料:东契奇赴西班牙疗伤纯属假消息,欧洲之行另有原因

内部人士爆料:东契奇赴西班牙疗伤纯属假消息,欧洲之行另有原因

夜白侃球
2026-05-06 15:19:02
经典声浪归来!国际汽联明确:F1赛车将重回V8时代

经典声浪归来!国际汽联明确:F1赛车将重回V8时代

快科技
2026-05-06 09:06:06
雷霆这么猛也有烦恼,今夏薪资爆炸,这些人恐怕留不住了

雷霆这么猛也有烦恼,今夏薪资爆炸,这些人恐怕留不住了

兵哥篮球故事
2026-05-06 19:15:30
未来两个月,积压已久的机遇集中爆发,事业顺风顺水的三个星座

未来两个月,积压已久的机遇集中爆发,事业顺风顺水的三个星座

小晴星座说
2026-05-06 19:30:18
同济大学再通报“教师王某相关论文数据存疑”:免去其生命科学与技术学院院长职务

同济大学再通报“教师王某相关论文数据存疑”:免去其生命科学与技术学院院长职务

界面新闻
2026-05-06 20:51:27
上海G1半场压制山东!古德温白边统治级,高诗岩+2内线死顶!

上海G1半场压制山东!古德温白边统治级,高诗岩+2内线死顶!

篮球资讯达人
2026-05-06 20:33:59
特斯拉 Model Y 将大改款?网传有 5 项升级,每个都是车主想要的!

特斯拉 Model Y 将大改款?网传有 5 项升级,每个都是车主想要的!

新浪财经
2026-05-04 22:51:52
2026-05-06 23:11:00
硅屿手记
硅屿手记
有态度网友ytd
3537文章数 19关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

目击者:"没绑紧"不是遇难女孩说的 现场不少未成年人

头条要闻

目击者:"没绑紧"不是遇难女孩说的 现场不少未成年人

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

广电总局发布2026年“微短剧+”行动计划推荐剧目

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

教育
健康
旅游
亲子
军事航空

教育要闻

现在的留学生玩的可真6!

干细胞治烧烫伤面临这些“瓶颈”

旅游要闻

联播一瞬丨凭实力圈粉!外国游客在沉浸式打卡游里点赞中国

亲子要闻

筱梅分享带娃日常,抱小宝宝手法熟练!小宝宝婴儿房舒适又宽敞!

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版