网易首页 > 网易号 > 正文 申请入驻

17岁高中生给AI造了一面"防火墙"

0
分享至

想象这样一个场景:你让AI助手帮忙整理邮箱,它却偷偷把你的银行密码发给了陌生人。这不是科幻片里的情节,而是真实存在的安全漏洞——"提示词注入攻击"。一位17岁的高中生花了整整一年多时间,独自开发出一套防御系统,试图堵住这个缺口。

他的名字叫Kevin Lu,目前就读于加州圣何塞的Bellarmine College Preparatory School。他的研究让他入围了2026年Regeneron科学天才奖决赛——这项竞赛由Society for Science主办,也正是《Science News Explores》的出版方。


但比起奖项,Kevin更在意的是实际问题:当AI代理被越来越多地用于处理邮件、管理文件、甚至操作网银时,谁来保证它们不会被人"拐跑"?

AI代理的"阿喀琉斯之踵"

先搞清楚一件事:什么是AI代理?简单说,就是能替你办事的AI程序。它们不只是聊天,而是真的会去执行动作——发邮件、查资料、整理文档,甚至登录你的账户操作。

问题就出在这里。这些代理接收的信息来源复杂:邮件正文、网页内容、附件里的文字,都可能藏着陷阱。黑客会把恶意指令伪装成普通文本,混在这些信息里。AI读到之后,可能毫无察觉地照做——把隐私数据外传、生成虚假信息,或者执行其他破坏操作。

这种攻击方式叫"prompt injection",提示词注入。它不像传统黑客那样需要攻破防火墙,而是直接"骗过"AI本身。更麻烦的是,目前业内公认:没有完全可靠的防御手段。

Kevin想做的,就是在这个"无解"的问题上撕开一道口子。

他的"盾牌"长什么样

Kevin的系统有两道防线。

第一道是"过滤层"——在可疑指令抵达AI模型之前,就把它截住。系统会分析输入内容,判断其中是否藏有试图操控AI的意图。第二道是"监控层"——即使某些指令绕过了过滤,系统也会持续观察AI的行为表现,捕捉它被操纵的迹象。

说白了,这套方案既不盲目信任输入内容,也不完全依赖AI的自我判断,而是在中间加了一层"安检+监控"的双重机制。

在模拟测试中,这套盾牌的表现是:零穿透。所有试图模拟的网络攻击都被挡了下来。

不过Kevin自己很谨慎。他没有用"彻底解决"这类词,而是说"希望能帮助提升AI代理的安全性"。他特别提到那些处理银行账户和敏感个人数据的AI——这些场景一旦出事,代价实实在在。

一个人的攻坚战

这个项目Kevin做了超过一年。有意思的是,他的起点和终点完全不同。

"我最开始的解决方案完全是另一个方向,"他回忆道。经过反复修改和扩展,才逐渐成型。当被问到看到测试结果时有没有"顿悟时刻",他的回答很平实:"没有那种特别大的'啊哈'瞬间,但持续投入本身就很值得。"

独自攻关的最大困难是什么?"很难知道自己是不是走对了路。"

他的线索来自两个地方。一个是技术博客——博主Simon Willison写过提示词注入攻击的原理和可能的防御思路。另一个是Google DeepMind的研究员Neel Nanda,Kevin看他的直播学习如何编写项目中的部分代码。

没有实验室,没有团队,靠着公开资源和反复试错,他把东西做了出来。

这件事为什么值得关注

Kevin的研究出现在一个微妙的时间点。AI代理正在从"好玩的新工具"变成"真正处理事务的基础设施"。OpenAI、Google、Anthropic这些公司都在推各自的代理产品,让它们能替用户操作软件、浏览网页、执行多步骤任务。

但安全研究明显滞后。提示词注入攻击的防御,至今没有被"解决",只有"缓解"。Kevin的方案也不是万能药——它针对的是特定类型的攻击向量,而且模拟测试和真实环境总有差距。

真正有价值的可能是这个方向本身:与其试图让AI变得更"聪明"以识别欺骗,不如在架构上增加隔离和监控层。这种工程思维,比任何单次突破都更可持续。

另外,这件事也暴露了AI安全领域的一个尴尬现状:一个高中生花一年时间就能做出有竞争力的防御原型,说明大厂们的投入和产出未必匹配。是资源分配的问题,还是技术路线的分歧?值得观察。

还没说完的部分

Kevin本人最享受的是编码过程和做海报展示——典型的研究者乐趣。但对于这个领域来说,挑战才刚刚开始。

提示词注入攻击和防御,本质上是一场"欺骗与反欺骗"的军备竞赛。今天的盾牌能挡住今天的矛,明天的矛会换什么形状?攻击者可能会针对过滤机制本身设计绕过策略,也可能从监控盲区寻找突破口。

更重要的是,AI代理的权限边界在哪里?如果一个AI能登录你的邮箱,理论上它也能做很多其他事。安全不只是技术问题,也是产品设计问题——哪些操作需要二次确认,哪些场景必须人工介入,这些决策比任何算法都关键。

Kevin的系统目前还是研究原型,距离实际部署有距离。但它证明了一件事:在这个快速变化的领域,个体研究者依然能做出实质性贡献。而AI安全需要的,正是这种分散的、持续的、来自不同背景的尝试。

毕竟,当AI代理真正接管我们的数字生活时,我们需要的不是某一个完美的盾牌,而是很多层、很多道、不断更新的防线。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大瓜!曝某童星被抓踩缝纫机,团队接管账号打掩护,网传是张一山

大瓜!曝某童星被抓踩缝纫机,团队接管账号打掩护,网传是张一山

喜欢历史的阿繁
2026-05-16 06:58:46
摩根士丹利中国首席经济学家邢自强:预计下半年央行政策将保持平衡,不会进一步降息降准

摩根士丹利中国首席经济学家邢自强:预计下半年央行政策将保持平衡,不会进一步降息降准

每日经济新闻
2026-05-15 15:40:33
高三晒家长“开天窗”穿搭,被嘲:该端庄的时候,你解扣子干嘛?

高三晒家长“开天窗”穿搭,被嘲:该端庄的时候,你解扣子干嘛?

妍妍教育日记
2026-05-10 11:50:07
效力国家队12年,与梁靖崑传绯闻是孙颖莎陪练,如今27岁官宣退役

效力国家队12年,与梁靖崑传绯闻是孙颖莎陪练,如今27岁官宣退役

以茶带书
2026-05-15 23:49:26
彻底摆脱依赖!储量够全球用数百年,日本万米深海开采稀土

彻底摆脱依赖!储量够全球用数百年,日本万米深海开采稀土

飘逸的云朵
2026-05-15 18:45:08
勇士四方交易方案:换来两届FMVP+比尔

勇士四方交易方案:换来两届FMVP+比尔

体育硬核说
2026-05-16 01:03:59
女人和婚外男人,越过了以下三条边界,多半会发生婚外情

女人和婚外男人,越过了以下三条边界,多半会发生婚外情

叶飞飞情感屋
2026-05-15 15:29:47
明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

流云随风去远方
2026-05-13 08:12:48
坐标上海,30岁高薪程序员宁愿花7.2万租房也不买房,评论区炸锅

坐标上海,30岁高薪程序员宁愿花7.2万租房也不买房,评论区炸锅

慧翔百科
2026-05-15 08:41:18
特朗普离京,我国送别规格相当高,普京访华蓄势待发,不简单

特朗普离京,我国送别规格相当高,普京访华蓄势待发,不简单

DS北风
2026-05-15 19:46:06
被中国制裁的鲁比奥,坐在人民大会堂时,做出了令人没想到的一幕

被中国制裁的鲁比奥,坐在人民大会堂时,做出了令人没想到的一幕

墨兰史书
2026-05-16 02:30:03
全面加速,第四艘中国航母即将官宣!命名大概率为"江苏号"

全面加速,第四艘中国航母即将官宣!命名大概率为"江苏号"

清欢百味
2026-05-16 04:31:22
福建杨梅商贩浸泡8000倍超甜三无添加剂,直言泡过的自己都不吃

福建杨梅商贩浸泡8000倍超甜三无添加剂,直言泡过的自己都不吃

东方豪侠
2026-05-15 19:04:52
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

波多野结衣公开择偶标准,想嫁给中国男人,她远比你想象的更优秀

花哥扒娱乐
2026-05-14 20:10:50
邝兆镭U17亚洲杯首秀!送助攻后或旧伤复发,只踢半场仍获赞

邝兆镭U17亚洲杯首秀!送助攻后或旧伤复发,只踢半场仍获赞

奥拜尔
2026-05-16 02:13:48
刘震云:如果你一听到伴侣说话就烦躁,有股无名火,真正的原因不是你讨厌他,也不是你脾气不好,而是条件反射

刘震云:如果你一听到伴侣说话就烦躁,有股无名火,真正的原因不是你讨厌他,也不是你脾气不好,而是条件反射

脆皮先生
2026-05-13 19:42:42
日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

天天热点见闻
2026-05-15 06:26:40
科尔:原本95%的概率退休,但附加赛击败快船让我改变了主意

科尔:原本95%的概率退休,但附加赛击败快船让我改变了主意

懂球帝
2026-05-15 16:57:22
特朗普离京前,对台湾问题已作明确表态,解读如下:

特朗普离京前,对台湾问题已作明确表态,解读如下:

大中国
2026-05-15 21:04:02
2026-05-16 08:08:49
冷知识挖掘机21
冷知识挖掘机21
有态度网友ytd
161文章数 0关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普访问中国43个小时行程密集紧凑 全程回顾

头条要闻

特朗普访问中国43个小时行程密集紧凑 全程回顾

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

数码
旅游
时尚
健康
军事航空

数码要闻

ROG枪神10 Plus超竞版游戏本发布,320W巅峰释放

旅游要闻

2026年“5·19中国旅游日”山东分会场活动即将启动,山东聊城送上文旅惠民大礼包,邀您乐享品质旅游,共赴美好山河!

顶级团队拍出来的作品不如素人,问题出在哪儿了?

专家揭秘干细胞回输的安全风险

军事要闻

联合国安理会审议叙利亚局势

无障碍浏览 进入关怀版