网易首页 > 网易号 > 正文 申请入驻

如何监测通用大模型的安全水位?多位专家支招

0
分享至

界面新闻记者 | 黄景源
界面新闻编辑 | 彭朋

截至2023年底,国内已完成备案的生成式人工智能服务达60余款。人工智能大模型在解放生产力、提高生产效率的同时也带来了一系列问题,例如隐私信息泄漏、版权归属纠纷、内容真实性与合规性等,如何应对随之而来的安全、治理问题?

9月9日,2024年国家网络安全宣传周上海地区活动拉开帷幕,在当日举行的主论坛现场,教育部长江学者、复旦大学计算机科学技术学院院长杨珉围绕“AI大模型安全评测与治理”,介绍了人工智能系统安全治理领域的研究成果。

杨珉指出,ChatGPT等通用大模型正成为大家日常生活中频繁使用的工具,并逐步向具身智能体进化,在可预见的将来会出现AI社会,很多人工智能体会互相影响、协同工作。这种技术演变的趋势背后,大模型生成内容的安全风险会逐渐外溢,进而形成物理世界的风险,如何动态、持续地监测通用大模型的安全水位,是学界、企业界、政府部门必须共同面对的重大挑战。

“当前的安全技术远远滞后于的AI技术发展的整体速度。”杨珉表示,其中一个技术是基于个人的技巧发现安全问题,即诱导问题,它的特点是自动化程度低、成本高昂。杨珉及团队一直深耕于此,希望寻找到一个通用的普适性的测试集,客观地检视当前大模型的安全合规能力。目前部分技术已在百度、阿里、华为落地应用。

此外,杨珉团队还利用语言学中“转换生成语法”的原理,建设了评测自动化、测试覆盖率高和风险发现能力强的测评平台。基于此,杨珉带领团队在今年6月发布第一代测试集,测试的维度包含了歧视性内容、商业违法违规、侵犯他人权益以及内容不准确不科学等31个子类。

杨珉表示, 未来将持续公布这种动态的测评结果,呈现产业之间在能力上的差异性,希望能助力整个行业生态的健康发展。

上海人工智能实验室综合管理部、AI治理负责人王迎春总结指出,大模型的安全问题包括国家安全、行业安全、社会安全以及人工智能可控性等极端风险。应对路径一是治理政策和规则,二是测评等技术路径。

《人工智能安全治理框架》1.0版指出,人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期各环节都面临安全风险,既面临自身技术缺陷、不足带来的风险,也面临不当使用、滥用甚至恶意利用带来的安全风险。

例如,以深度学习为代表的人工智能算法内部运行逻辑复杂,推理过程属黑灰盒模式,可能导致输出结果难以预测和确切归因,如有异常难以快速修正和溯源追责。

王迎春指出,随着模型能力的提升,执行的任务更加复杂,对其的监督能力已非人力能及,需要开发出更多新的技术,将监督信号设计到模型当中,其中就包括上述自动化红队测试等。

他预言,下一代的大模型发展应该是数字和物理融合的模型,会带来新的安全风险问题,需要提前进行技术储备,甚至在研发模型当中就要做技术的研究。王迎春认为,国内对于大模型安全的应对比较零散,不体系化,政府要构建人工智能安全技术体系图,有助于有关部门包括企业布局相应技术研究,例如模型评测技术、模型内生安全技术等。

事实上,针对模型算法安全、数据安全和系统安全等内生安全风险和网络域、现实域、认知域、伦理域等应用安全风险,刚刚发布的《人工智能安全治理框架》1.0版提出相应技术应对和综合防治措施,以及人工智能安全开发应用指引,为促进人工智能健康发展和规范应用,提供了基础性、框架性技术指南。

针对模型算法、训练数据、算力设施、产品服务、应用场景,上述框架提出通过安全软件开发、数据质量提升、安全建设运维、测评监测加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性人工智能安全治理框架的措施。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《神鬼寓言4》突然变成人3A!尺度大真能逆天改命?

《神鬼寓言4》突然变成人3A!尺度大真能逆天改命?

游民星空
2026-05-30 18:12:30
全国通缉犯藏上海9年,成身价3亿大佬,被捕时:放了我,给5000万

全国通缉犯藏上海9年,成身价3亿大佬,被捕时:放了我,给5000万

鉴史录
2026-05-23 12:44:00
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
一豪华游轮在土耳其沿海沉没,148人跳海逃生无人伤亡

一豪华游轮在土耳其沿海沉没,148人跳海逃生无人伤亡

现代快报
2026-05-30 17:57:06
若赢得欧冠冠军,巴黎将给每位球员发100万欧

若赢得欧冠冠军,巴黎将给每位球员发100万欧

懂球帝
2026-05-29 19:10:10
为何说在青藏无人区,晚上烧火取暖等于找死?

为何说在青藏无人区,晚上烧火取暖等于找死?

心中的麦田
2026-05-19 19:21:27
气温破55℃,牛马都顶不住了!印度网友戏称:炸开喜马拉雅降温?

气温破55℃,牛马都顶不住了!印度网友戏称:炸开喜马拉雅降温?

青梅侃史啊
2026-05-30 09:59:30
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

余承东吹爆问界M9,称其“地球最强”,评论区一点面子都不给!

谭谈社会
2026-05-28 16:21:33
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
“我的钱可以买你的命!”,男子高铁怒怼乘警,网友: 查他的来源。

“我的钱可以买你的命!”,男子高铁怒怼乘警,网友: 查他的来源。

坠入二次元的海洋
2026-05-30 19:51:03
WSBK西班牙阿拉贡正赛首回合,德比斯获第八名 张雪现身中超赛场与六万球迷一同观赛

WSBK西班牙阿拉贡正赛首回合,德比斯获第八名 张雪现身中超赛场与六万球迷一同观赛

封面新闻
2026-05-30 20:58:11
唐静:前夫和秦海璐结婚后,独自陪儿子长大,如今选择让人泪目

唐静:前夫和秦海璐结婚后,独自陪儿子长大,如今选择让人泪目

孤城落日
2026-05-17 16:55:10
不合并,胜似合并!青烟威悄悄长成“中国第四城”,山东终于醒了

不合并,胜似合并!青烟威悄悄长成“中国第四城”,山东终于醒了

三农老历
2026-05-30 14:50:40
站在美国领土上,王毅外长的一句话振聋发聩,果然没让武契奇失望

站在美国领土上,王毅外长的一句话振聋发聩,果然没让武契奇失望

离离言几许
2026-05-30 19:49:25
53岁任泉近况曝光!被曝与黄绮雯隐婚17年,婚姻幸福成人生赢家

53岁任泉近况曝光!被曝与黄绮雯隐婚17年,婚姻幸福成人生赢家

代军哥哥谈娱乐
2026-05-29 11:26:26
72岁大妈:一种新型找老伴方式,远比晚年搭伙或再婚要好得多

72岁大妈:一种新型找老伴方式,远比晚年搭伙或再婚要好得多

烙任情感
2026-05-29 19:23:21
媒体人:洛夫顿伤情不容乐观,怀特塞德的情况依旧未知

媒体人:洛夫顿伤情不容乐观,怀特塞德的情况依旧未知

懂球帝
2026-05-30 11:48:08
护肝片哪个品牌效果好还安心?护肝片TOP10排行榜单,养肝护肝产品市场真实口碑

护肝片哪个品牌效果好还安心?护肝片TOP10排行榜单,养肝护肝产品市场真实口碑

天之水网
2026-05-29 15:52:08
窦骁片酬仅是刘浩存一半?听了他的回答,才知道何超莲的选择没错

窦骁片酬仅是刘浩存一半?听了他的回答,才知道何超莲的选择没错

嘴角上翘的弧度
2026-05-30 16:50:23
2026-05-30 21:28:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1096088文章数 1335142关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

头条要闻

伊朗浓缩铀材料将被挖出销毁 特朗普就战事最新表态

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

房产
游戏
亲子
公开课
军事航空

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

索尼又抽风?玩家在PS商店购买游戏疑似被强制回收

亲子要闻

夏季皮肤科门诊量激增!专家:别让特应性皮炎反复影响孩子成长

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长参加"香会" 就美中关系最新表态

无障碍浏览 进入关怀版