网易首页 > 网易号 > 正文 申请入驻

上海AI实验室突破:AI安全卫士实现主动威胁识别

0
分享至


这项由上海人工智能实验室、南京大学和北京航空航天大学联合完成的突破性研究发表于2025年12月29日,论文编号为arXiv:2512.23573v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们在网上冲浪时,各种内容扑面而来——有的让人开心,有的让人担忧,还有一些可能藏着不为人知的风险。就像一个经验丰富的保安,传统的AI安全系统只能识别那些已知的威胁类型,遇到从未见过的新型风险时就束手无策了。然而,上海人工智能实验室的研究团队刚刚发布了一个名为ProGuard的AI系统,它就像一位具备超强洞察力的安全专家,不仅能识别已知威胁,还能主动发现并描述那些从未遇到过的全新安全风险。

这个研究的核心突破在于改变了AI安全检测的思维模式。以往的系统就像一个只会按照固定清单检查的门卫,只有当威胁完全符合已知模式时才会发出警报。而ProGuard更像一位经验丰富的侦探,即使面对前所未见的可疑行为,也能凭借对安全本质的深度理解做出合理判断,并准确描述这种威胁的特征。

研究团队在构建这个系统时面临着一个根本性挑战:现有的AI安全系统普遍存在"偏科"现象。它们在处理文字内容时表现不错,但一旦遇到图片或者图文混合的内容就显得力不从心。这就好比一个只会看文字说明书的维修工,当需要根据图片来判断故障时就会感到困惑。

为了解决这个问题,研究团队首先做了一件看似简单但实际上极为繁琐的工作:他们构建了一个包含8.7万个样本的庞大数据集,就像为侦探准备了一本内容丰富的案例手册。这个数据集的特别之处在于它的平衡性——文字、图片和图文混合的内容各占三分之一,确保AI系统在各种类型的内容面前都能保持同样敏锐的判断力。

更重要的是,研究团队设计了一套全新的安全分类体系,就像为不同类型的安全威胁建立了一个详细的"族谱"。这套体系包含11个大类和28个细分类别,涵盖了从版权侵犯到网络攻击,从金融诈骗到环境威胁的各种安全风险。每个类别都有清晰的定义和具体的识别标准,为AI系统提供了准确判断的基础。

然而,这项研究最令人惊叹的创新在于它的训练方法。传统的AI系统就像一个需要老师手把手教导的学生,必须通过大量的标准答案来学习。而ProGuard采用了一种名为强化学习的训练方式,更像是让AI在实战中自己摸索和成长。系统通过不断尝试和犯错来学会如何做出正确的安全判断,这种训练方式让它具备了面对未知威胁时的应变能力。

在这个训练过程中,研究团队故意给AI系统出了一些"难题":他们会故意隐藏一些安全类别,然后看AI能否自己推理出这些缺失类别的名称和特征。这就像让侦探在案例手册页面缺失的情况下,依然能够分析和描述新型犯罪的特点。为了让AI的判断更加准确,研究团队还建立了一个"同义词库",用来评估AI对未知威胁的描述是否合理。

当AI系统遇到一个从未见过的安全威胁时,它不会简单地将其归为"其他"类别,而是会仔细分析威胁的特征,然后给出一个具体的描述。比如说,当系统遇到一种新型的医疗误导内容时,它可能会将其描述为"医疗误诊"而不是简单地标记为"有害内容"。

这种能力的实现依靠的是AI系统内部一种被称为"思考"的机制。当面对需要判断的内容时,AI会先在内心进行一番推理,就像人类在做重要决定前会仔细思考一样。这个思考过程被完整地记录下来,让人们能够理解AI是如何得出最终结论的,大大提高了系统的可信度和可解释性。

研究团队在多个国际标准测试中验证了ProGuard的性能。结果显示,在传统的安全内容识别任务中,ProGuard的表现与市场上最好的商业化AI系统不相上下。更令人印象深刻的是,在面对全新类型的安全威胁时,ProGuard的识别准确率比现有系统提高了52.6%,而在准确描述这些威胁的能力上更是提升了64.8%。

这种提升不是偶然的。研究团队发现,通过平衡不同类型内容的训练数据,AI系统在各种媒体形式面前都能保持稳定的判断能力。无论是纯文字的恶意评论,包含敏感图片的社交媒体帖子,还是图文混合的误导性广告,ProGuard都能给出准确的安全评估。

特别值得一提的是,研究团队在训练方法上的创新也带来了意外的好处。传统的AI训练方法往往会产生冗长而重复的"思考"过程,就像一个话痨在自言自语。而ProGuard通过强化学习训练出来的思考过程更加简洁有力,平均只需要52个思考单元就能做出准确判断,相比传统方法减少了一半以上的冗余思考。

为了确保AI的判断与人类的认知保持一致,研究团队还进行了大规模的人工验证。他们让人类专家对AI的判断结果进行评估,发现在各个安全类别中,人类专家与AI的一致性都超过了80%,证明了系统判断的可靠性。

这项研究的意义远不止于技术突破本身。在当今这个信息爆炸的时代,各种新型的安全威胁层出不穷,传统的"黑白名单"式安全防护早已无法应对复杂多变的网络环境。ProGuard代表了AI安全领域从被动防御向主动识别的重要转变,它不仅能够处理已知威胁,更重要的是具备了应对未知风险的能力。

从实际应用的角度来看,这种技术将为社交媒体平台、内容分享网站、在线教育平台等需要进行内容安全管控的服务提供更加智能和全面的解决方案。用户在这些平台上分享内容时,不再需要担心因为安全检测系统的"知识盲区"而让有害内容漏网,也不用担心正常内容被过度敏感的系统误伤。

此外,这项研究还为AI安全领域的发展开辟了新的方向。通过让AI系统学会"举一反三",我们可以期待未来的AI安全助手不仅能够识别和分类威胁,还能够为安全策略的制定和完善提供有价值的洞察。当新的安全威胁出现时,这些系统能够快速学习和适应,为网络安全防护提供更加敏捷和智能的支持。

值得注意的是,研究团队已经将ProGuard开源,这意味着全世界的研究者和开发者都可以在此基础上继续创新和改进。这种开放的态度不仅促进了学术界的交流合作,也为这项技术的快速普及和应用奠定了基础。

展望未来,随着AI技术的不断发展和网络环境的日益复杂,像ProGuard这样具备主动学习和推理能力的安全系统将变得越来越重要。它们不仅是技术进步的体现,更是我们构建更加安全、可信的数字世界的重要工具。这项研究为我们展示了一个令人鼓舞的前景:AI不仅可以成为我们的得力助手,还能够在面对未知挑战时展现出类似人类的智慧和判断力。

Q&A

Q1:ProGuard与传统AI安全系统有什么区别?

A:传统AI安全系统只能识别已知的威胁类型,就像按照固定清单检查的门卫。而ProGuard能够主动发现并描述从未见过的全新安全风险,更像一位具备洞察力的安全专家,即使面对前所未见的威胁也能做出准确判断。

Q2:ProGuard在性能方面比现有系统提升了多少?

A:在面对全新类型安全威胁的识别准确率上,ProGuard比现有系统提高了52.6%,在准确描述这些威胁的能力上提升了64.8%。在传统安全内容识别任务中,其表现与市场上最好的商业化AI系统不相上下。

Q3:普通用户能否使用ProGuard技术?

A:研究团队已经将ProGuard开源,全世界的开发者都可以在此基础上创新改进。预计未来会有更多基于这项技术的安全产品应用到社交媒体、内容分享网站等平台中,为用户提供更智能全面的内容安全保护。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爱因斯坦临终警告:宇宙诞生之前是什么?大脑根本无法想象

爱因斯坦临终警告:宇宙诞生之前是什么?大脑根本无法想象

观察宇宙
2026-04-10 21:32:43
3·15晚会曝光“万能神药”涉事企业被吊销营业执照并罚200万元

3·15晚会曝光“万能神药”涉事企业被吊销营业执照并罚200万元

界面新闻
2026-04-11 14:07:04
美谈判团队携数十辆装甲车抵达后,巴基斯坦:伊朗团队我负责护航

美谈判团队携数十辆装甲车抵达后,巴基斯坦:伊朗团队我负责护航

共工之锚
2026-04-11 01:03:28
刷牙可能影响寿命?再次提醒:55岁以后,刷牙要牢记“4不要”

刷牙可能影响寿命?再次提醒:55岁以后,刷牙要牢记“4不要”

白话电影院
2026-04-06 19:35:56
刘震云:一个妈妈最大的悲哀,就是轻易向别人透露子女这3件隐私,真的很傻!

刘震云:一个妈妈最大的悲哀,就是轻易向别人透露子女这3件隐私,真的很傻!

新浪财经
2026-04-10 12:43:57
父亲百万积蓄全给小儿子,大年三十两个哥哥没到,小儿子傻眼了

父亲百万积蓄全给小儿子,大年三十两个哥哥没到,小儿子傻眼了

奶茶麦子
2026-04-11 14:52:14
泽连斯基:如果美国真的考虑退出北约,英国、乌克兰必须加入欧盟

泽连斯基:如果美国真的考虑退出北约,英国、乌克兰必须加入欧盟

二大爷观世界
2026-04-11 08:56:36
大外交|王毅访朝延续高层互动势头,中朝多领域交流回暖

大外交|王毅访朝延续高层互动势头,中朝多领域交流回暖

澎湃新闻
2026-04-10 20:02:30
陪玩陪睡都是毛毛雨!王思聪前女友曝“丑闻”,王家彻底坐不住了

陪玩陪睡都是毛毛雨!王思聪前女友曝“丑闻”,王家彻底坐不住了

一窥究竟
2026-04-10 04:24:44
万斯发出最后通牒,以色列碰了一鼻子灰,内塔尼亚胡或被关进大牢

万斯发出最后通牒,以色列碰了一鼻子灰,内塔尼亚胡或被关进大牢

麓谷隐士
2026-04-11 16:05:16
就业卷到极限,12人花30万买高铁工作,月薪才两千,还是劳务派遣

就业卷到极限,12人花30万买高铁工作,月薪才两千,还是劳务派遣

眼光很亮
2026-04-09 16:15:14
刚刚!美联储,降息大消息!

刚刚!美联储,降息大消息!

新浪财经
2026-04-10 22:18:45
北京亦庄太魔幻了,无人机、机器人满街跑,连鸵鸟都上路了

北京亦庄太魔幻了,无人机、机器人满街跑,连鸵鸟都上路了

每日人物
2026-04-09 09:17:24
中科院一招,让固态电池突然不香了!2026最大电池黑科技揭秘

中科院一招,让固态电池突然不香了!2026最大电池黑科技揭秘

粤语音乐喷泉
2026-04-11 07:36:46
郑合惠子签约新主,演技派与顶级流量的资源合流

郑合惠子签约新主,演技派与顶级流量的资源合流

商业不许冷
2026-04-11 11:43:26
不寻常!男子一连9次乘坐同一邮轮,一天逛十几次免税店,上海民警一查,果然不简单

不寻常!男子一连9次乘坐同一邮轮,一天逛十几次免税店,上海民警一查,果然不简单

新民晚报
2026-04-10 13:56:07
门店腰斩2万家!一线撤离、杂牌泛滥,国民快餐巨头彻底扛不住了

门店腰斩2万家!一线撤离、杂牌泛滥,国民快餐巨头彻底扛不住了

毒sir财经
2026-04-09 16:14:36
成年人最顶级的自律,是学会看人

成年人最顶级的自律,是学会看人

青苹果sht
2026-04-11 05:13:13
傻眼!美国员工店内热舞TikTok引流突破780万,老板:全员开除,一个不留

傻眼!美国员工店内热舞TikTok引流突破780万,老板:全员开除,一个不留

北美省钱快报
2026-04-11 06:32:55
高光时刻!枭龙战机进入伊朗领空,巴空军直接为伊方护航作战

高光时刻!枭龙战机进入伊朗领空,巴空军直接为伊方护航作战

精彩瞬间回顾
2026-04-10 17:46:25
2026-04-11 18:27:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7949文章数 560关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

伊朗消息人士:美国同意解冻伊朗海外资产

头条要闻

伊朗消息人士:美国同意解冻伊朗海外资产

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

时尚
家居
教育
数码
公开课

这件人生单品,现在正是穿它的黄金期

家居要闻

复古风格 自然简约

教育要闻

国安名将踢进校园足球节,西瓜小镇开起劳动课…… | 一周校园新鲜事

数码要闻

三星中国业务大调整细节曝光:黑白电/彩电/显示器淡出市场 保留手机和存储业务

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版