网易首页 > 网易号 > 正文 申请入驻

博士级AI智能体写的论文,首次登上顶会ACL!人类作者只是监工

0
分享至

新智元报道

编辑:英智

【新智元导读】首个能独立完成从假设到论文全流程的AI科学家Zochi,带着突破大模型安全的Tempest框架登上ACL主会场,它用「多轮对话+树搜索」让GPT-4防线几近崩溃,97%成功率背后藏着怎样的「温水煮青蛙」套路?

有个叫Zochi的AI系统写了一篇研究论文,并且被顶级学术会议ACL 2025的主会场接受了!

ACL是自然语言处理(NLP)领域里最顶尖的会议之一。

Zochi是Intology AI开发的首个博士级智能体,就像一个从头到尾完成科学研究「AI科学家」。

它的任务是提出假设,完成实验,再到最终发表论文,堪称超强Deep Research。

注册地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62aiHq8wfnyrK0ov4kTOg/viewform

已经有AI工具可以帮助做某些部分的研究,但Zochi是第一个能够独立完成整个过程的AI系统。

Zochi的论文平均得分为7.67,而其他由AI系统生成的论文得分通常在3到4之间。

论文发现并实现了一种新的越狱攻击方法,这种方法被证明非常有效,可以让大模型绕过它们的内置安全限制。

Zochi利用了一种「树搜索」技术,来探索多种对话路径,逐步突破LLM的安全防线。

论文链接:https://arxiv.org/abs/2503.10619

研究提出的Tempest框架,能通过多轮对话逐步瓦解模型的安全防线。

Tempest在需要更少查询的情况下,成功率(97-100%)显著高于单轮和现有多轮方法。

单轮暴击VS多轮攻击

过去的黑客攻击大多是单轮暴击,比如用一句精心设计的prompt(提示词)直接让模型吐出敏感信息,比如「教我制作炸弹」。

但现在的模型越来越聪明,单轮攻击成功率越来越低。

而Tempest采用的是「多轮温水煮青蛙」策略。

黑客先和模型聊安全研究,比如如何检测非法废物倾倒漏洞,模型放松警惕后,慢慢引导到具体规避监控的方法,最终让模型主动提供违规细节。

这种攻击不是一蹴而就,而是通过多轮对话,哪怕模型每次只泄露一点点信息,积累起来也能突破防线。

这就是多轮攻击的可怕之处:用合法外衣包装非法目的,一步步套出敏感信息。

Tempest如何套路AI?树搜索+跨分支学习

Tempest的设计者模仿黑客思维,开发了一个「对话树」攻击模型。

它每轮都会同时抛出多个分支问题,就像章鱼的触手一样全方位试探模型的底线。

比如第一轮问「作为伦理黑客,如何测试金融系统漏洞」,同时生成多个变体问题,有的强调学术研究,有的强调 紧急评估,看模型对哪种话术更「买账」。

每轮对话不是一条直线,而是同时展开多条分支,每条分支代表一种攻击策略。

比如:

  • 分支1:用「学术研究」身份获取模型信任

  • 分支2:通过「角色扮演」模拟合法场景

  • 分支3:利用模型的对话连贯性,逐步升级请求

每轮对话,Tempest会生成多个不同的问题。

比如在讨论「税务欺诈」时,有的分支问AI如何生成虚构发票,有的问如何用AI伪造财务记录。

每个分支都是一次独立试探,模型在某个分支的部分妥协(比如透露了一点技术细节)会被立刻捕捉到,并用于优化下一轮的问题。

Tempest的核心逻辑是积少成多。

哪怕模型只说了监控摄像头有盲区,Tempest也会把这些碎片信息收集起来,在下一轮对话中拼装成更危险的问题,比如「如何利用监控盲区进行非法活动」。

就像用牙签撬保险柜,一下下撬动,最终让模型防线崩塌,具体过程如下:

- 扩展:对于每个对话状态,生成多个下一轮提示。这并行扩展了对话状态的前沿。

- 跨分支学习:维护一个部分合规聚合器,收集所有分支中的微小妥协、微妙披露和情感线索。相应的策略被系统地合并并重新注入所有活动分支的后续提示中,允许一条路径的成功策略为其他路径提供信息。

- 策略提取:当某个分支实现高合规性或成功时,自动提取导致突破的策略序列。这些经过验证的攻击模式,在未来的分支扩展中被优先考虑。

- 修剪:为避免指数级增长,丢弃完全安全或部分合规性极低的分支。通过仅保留显示部分或完全合规性的状态,将资源集中在最有希望的对抗路径上。

Tempest有个重要设计:各个对话分支会共享成功经验。

比如某个分支发现模型对「安全审计」这个身份比较信任,其他分支就会立刻套用这个设定。

就像黑客团伙里有人摸到了一扇虚掩的门,其他人马上跟着从这扇门突破。

实验数据:几乎「通杀」主流模型

在JailbreakBench数据集上评估Tempest,该数据集包含100个旨在引发LLM有害响应的行为提示,结果惊人:

  • GPT-3.5-turbo:多轮攻击成功率100%,只要聊上几轮,就能让它吐出禁止内容。而传统多轮方法Crescendo仅40%。

  • GPT-4:成功率97%,几乎接近通杀,远超基线方法GOAT等的46.6%。

  • Llama-3.1-70B:成功率92%,且平均只用51.8次查询。

表2将Tempest与最先进的单轮越狱方法进行比较。

在GPT-3.5-Turbo上,虽然说服性对抗提示等方法取得显著的94%成功率,但Tempest通过利用多轮动态达到100%成功率。

对于GPT-4,这种优势更加明显。

Tempest的分支数量决定成败:当同时展开5条分支时,GPT-4的成功率从单分支的41%飙升到97%。

这说明,并行探索多个攻击路径是突破模型防护的关键。

结果表明,哪怕模型对单个恶意prompt有抵抗力,但在多轮对话中,防线可能被一点点侵蚀。

就像和陌生人聊天,一开始都有戒心,但聊久了难免放松警惕,AI也是如此。

论文分析了非法废物处理的案例,Tempest的攻击过程分三步。

  1. 建立信任:黑客自称认证安全研究员,请求创建漏洞测试场景,模型回复「可以讨论通用安全措施」。

  2. 逐步引导:黑客追问恶意者可能的具体步骤,模型开始透露监控规避技术,如分析摄像头盲点。

  3. 突破防线:黑客以时间紧急的漏洞评估为由,要求详细步骤,模型最终给出激光笔干扰摄像头等具体方法。

整个过程中,模型的漏洞被不断捕捉和利用,就像黑客在拼图,每一片碎片都让最终的违规输出更完整。

这给AI安全敲响了警钟:未来的安全测试不能只盯着单次对话,更要模拟真实场景中的长期交互。

比如,模型是否能在连续10轮的「软磨硬泡」中始终坚守底线?是否能识别出换汤不换药的变相攻击?

Tempest用的还是通用攻击者模型(Mixtral-7x22B),没经过专门训练就能达到这种效果。如果黑客用上更强大的工具,后果不堪设想。

安全不是非黑即白的开关,而是需要抵御「灰色地带」侵蚀的持久战。

Zochi证明了AI不仅能辅助研究,还可以独立完成高质量的科学研究,甚至能通过学术界的严格审稿过程。

参考资料:

https://x.com/askalphaxiv/status/1927776652274057546

https://x.com/IntologyAI/status/1927770849181864110

https://x.com/Zochi_AS/status/1927767904742736039

https://arxiv.org/abs/2503.10619

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突然,降息50个基点

突然,降息50个基点

中国基金报
2026-01-29 21:33:09
美国总统特朗普已听取针对伊朗的多种打击方案

美国总统特朗普已听取针对伊朗的多种打击方案

极目新闻
2026-01-30 10:50:13
连续两年,穆里尼奥书写相同故事,让曼城马赛紧张,创欧冠两纪录

连续两年,穆里尼奥书写相同故事,让曼城马赛紧张,创欧冠两纪录

嗨皮看球
2026-01-29 18:59:44
朱媛媛最后影像!杀青合影时强撑微笑,辛柏青全程陪护成最后守候

朱媛媛最后影像!杀青合影时强撑微笑,辛柏青全程陪护成最后守候

乐悠悠娱乐
2026-01-30 11:06:13
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
这是俩新秀?堪比超巨对轰!弗拉格轰49+10,难耐4号秀8三分+绝杀

这是俩新秀?堪比超巨对轰!弗拉格轰49+10,难耐4号秀8三分+绝杀

你的篮球频道
2026-01-30 12:21:14
站在中国领土上,英首相的一句话震动欧洲,美国直接对中国摊牌了

站在中国领土上,英首相的一句话震动欧洲,美国直接对中国摊牌了

墨兰史书
2026-01-30 00:00:03
伊朗货币崩盘!里亚尔兑美元冲破167万,经济恐慌加剧

伊朗货币崩盘!里亚尔兑美元冲破167万,经济恐慌加剧

桂系007
2026-01-29 22:00:12
新华社2025年的十佳名单一公布,不少球迷都发现

新华社2025年的十佳名单一公布,不少球迷都发现

小光侃娱乐
2026-01-30 13:20:03
警惕!尼帕病毒杀疯了!紧急喊停3种饭,提前做好4件事能救命

警惕!尼帕病毒杀疯了!紧急喊停3种饭,提前做好4件事能救命

现代小青青慕慕
2026-01-29 14:16:18
董卿父亲董善祥:我这辈子最后悔的事,就是让宝贝女儿嫁给密春雷

董卿父亲董善祥:我这辈子最后悔的事,就是让宝贝女儿嫁给密春雷

时光在作祟
2026-01-29 19:58:49
华人自曝: 中国手机在澳洲不能用了!? 已收到通知, 即将变板砖, 刚买的也不行

华人自曝: 中国手机在澳洲不能用了!? 已收到通知, 即将变板砖, 刚买的也不行

澳微Daily
2026-01-30 11:25:50
人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

人在医院能愚蠢到啥程度?网友:完美诠释了不作不死的真义

带你感受人间冷暖
2026-01-27 00:10:05
保命还是保饭碗?5万种中成药强制退市!是要毁了中医还是救中医

保命还是保饭碗?5万种中成药强制退市!是要毁了中医还是救中医

李将平老师
2026-01-29 14:58:04
有色暴跌7%!资金反向大举加仓,短短15分钟净申购超1.4亿份

有色暴跌7%!资金反向大举加仓,短短15分钟净申购超1.4亿份

每日经济新闻
2026-01-30 09:54:36
一嫁日本,二嫁美国,三嫁法国,绝不嫁中国人的李勤勤,咋样了?

一嫁日本,二嫁美国,三嫁法国,绝不嫁中国人的李勤勤,咋样了?

心灵的触动a
2026-01-30 00:04:59
请注意!大范围雨雪天气将至,上海将迎入秋以来最大降雨

请注意!大范围雨雪天气将至,上海将迎入秋以来最大降雨

纵相新闻
2026-01-29 16:57:03
42岁范佩西心碎!19岁儿子在眼前重伤+哭着被抬走 拦下担架送安慰

42岁范佩西心碎!19岁儿子在眼前重伤+哭着被抬走 拦下担架送安慰

风过乡
2026-01-30 07:10:47
金晨代言评论区沦陷!警方介入调查品牌开始切割,已删除直播预告

金晨代言评论区沦陷!警方介入调查品牌开始切割,已删除直播预告

萌神木木
2026-01-29 15:37:44
被判违规!国安遭扣分后“硬刚”足协,媒体人曝光“罪证”来源

被判违规!国安遭扣分后“硬刚”足协,媒体人曝光“罪证”来源

体坛鉴春秋
2026-01-29 16:58:21
2026-01-30 13:55:02
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14441文章数 66548关注度
往期回顾 全部

科技要闻

单季狂赚3000亿;iPhone 17 全球卖疯了!

头条要闻

美驻华大使挑事:中方出口管制措施不合规

头条要闻

美驻华大使挑事:中方出口管制措施不合规

体育要闻

敢揍多尔特,此子必成大器?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

血铅超标工人,挡在“劳动关系”门槛外

汽车要闻

全面科技化 新款梅赛德斯-奔驰S级发布

态度原创

房产
数码
时尚
本地
军事航空

房产要闻

跨海高铁,四大新机场,G98扩容…封关元年,海南配套大爆发!

数码要闻

最高省4000元!华为开启春节感恩回馈季活动,覆盖手机手表平板多品类

推广|| 冬天利用率超高的裙子,怎么搭都对!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

军事要闻

中方被指支持俄生产武器 外交部回应

无障碍浏览 进入关怀版