网易首页 > 网易号 > 正文 申请入驻

如何监测通用大模型的安全水位?多位专家支招

0
分享至

界面新闻记者 | 黄景源
界面新闻编辑 | 彭朋

截至2023年底,国内已完成备案的生成式人工智能服务达60余款。人工智能大模型在解放生产力、提高生产效率的同时也带来了一系列问题,例如隐私信息泄漏、版权归属纠纷、内容真实性与合规性等,如何应对随之而来的安全、治理问题?

9月9日,2024年国家网络安全宣传周上海地区活动拉开帷幕,在当日举行的主论坛现场,教育部长江学者、复旦大学计算机科学技术学院院长杨珉围绕“AI大模型安全评测与治理”,介绍了人工智能系统安全治理领域的研究成果。

杨珉指出,ChatGPT等通用大模型正成为大家日常生活中频繁使用的工具,并逐步向具身智能体进化,在可预见的将来会出现AI社会,很多人工智能体会互相影响、协同工作。这种技术演变的趋势背后,大模型生成内容的安全风险会逐渐外溢,进而形成物理世界的风险,如何动态、持续地监测通用大模型的安全水位,是学界、企业界、政府部门必须共同面对的重大挑战。

“当前的安全技术远远滞后于的AI技术发展的整体速度。”杨珉表示,其中一个技术是基于个人的技巧发现安全问题,即诱导问题,它的特点是自动化程度低、成本高昂。杨珉及团队一直深耕于此,希望寻找到一个通用的普适性的测试集,客观地检视当前大模型的安全合规能力。目前部分技术已在百度、阿里、华为落地应用。

此外,杨珉团队还利用语言学中“转换生成语法”的原理,建设了评测自动化、测试覆盖率高和风险发现能力强的测评平台。基于此,杨珉带领团队在今年6月发布第一代测试集,测试的维度包含了歧视性内容、商业违法违规、侵犯他人权益以及内容不准确不科学等31个子类。

杨珉表示, 未来将持续公布这种动态的测评结果,呈现产业之间在能力上的差异性,希望能助力整个行业生态的健康发展。

上海人工智能实验室综合管理部、AI治理负责人王迎春总结指出,大模型的安全问题包括国家安全、行业安全、社会安全以及人工智能可控性等极端风险。应对路径一是治理政策和规则,二是测评等技术路径。

《人工智能安全治理框架》1.0版指出,人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期各环节都面临安全风险,既面临自身技术缺陷、不足带来的风险,也面临不当使用、滥用甚至恶意利用带来的安全风险。

例如,以深度学习为代表的人工智能算法内部运行逻辑复杂,推理过程属黑灰盒模式,可能导致输出结果难以预测和确切归因,如有异常难以快速修正和溯源追责。

王迎春指出,随着模型能力的提升,执行的任务更加复杂,对其的监督能力已非人力能及,需要开发出更多新的技术,将监督信号设计到模型当中,其中就包括上述自动化红队测试等。

他预言,下一代的大模型发展应该是数字和物理融合的模型,会带来新的安全风险问题,需要提前进行技术储备,甚至在研发模型当中就要做技术的研究。王迎春认为,国内对于大模型安全的应对比较零散,不体系化,政府要构建人工智能安全技术体系图,有助于有关部门包括企业布局相应技术研究,例如模型评测技术、模型内生安全技术等。

事实上,针对模型算法安全、数据安全和系统安全等内生安全风险和网络域、现实域、认知域、伦理域等应用安全风险,刚刚发布的《人工智能安全治理框架》1.0版提出相应技术应对和综合防治措施,以及人工智能安全开发应用指引,为促进人工智能健康发展和规范应用,提供了基础性、框架性技术指南。

针对模型算法、训练数据、算力设施、产品服务、应用场景,上述框架提出通过安全软件开发、数据质量提升、安全建设运维、测评监测加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性人工智能安全治理框架的措施。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东渔船真实惨案:33人玩心计上演4轮屠杀!幸存11狠人尽判死刑

山东渔船真实惨案:33人玩心计上演4轮屠杀!幸存11狠人尽判死刑

墨策史
2026-05-23 08:34:42
解密G4上海为什么能完成20分的超级逆转,因为洛夫顿不想打了

解密G4上海为什么能完成20分的超级逆转,因为洛夫顿不想打了

林子说事
2026-05-24 14:37:56
大爷每天盯着看惹居民不满,但又不愿拉上窗帘

大爷每天盯着看惹居民不满,但又不愿拉上窗帘

映射生活的身影
2026-05-24 11:42:36
“贪污上亿、假慈善”,被实名举报的韩红,终究没能等来一声道歉

“贪污上亿、假慈善”,被实名举报的韩红,终究没能等来一声道歉

梦醉为红颜一笑
2026-05-24 09:28:37
123人“消失”!山西矿难伤亡人数统计出大幅偏差,有网友称正常

123人“消失”!山西矿难伤亡人数统计出大幅偏差,有网友称正常

火山詩话
2026-05-24 11:58:28
赖清德被美国泼冷水,解放军释放重要信号,洪秀柱:统一为期不远

赖清德被美国泼冷水,解放军释放重要信号,洪秀柱:统一为期不远

起喜电影
2026-05-24 14:44:35
安妮·海瑟薇自曝差点退出新片:看到表演后想逃跑

安妮·海瑟薇自曝差点退出新片:看到表演后想逃跑

自愈小日子
2026-05-23 01:07:13
只可微醺,不可宿醉!顶级荣耀在召唤,枪手英超捧杯后还有大梦想

只可微醺,不可宿醉!顶级荣耀在召唤,枪手英超捧杯后还有大梦想

涛哥侃球
2026-05-24 15:33:43
皇马全员开宝马打卡上班,唯独这位大佬开法拉利搞特殊!

皇马全员开宝马打卡上班,唯独这位大佬开法拉利搞特殊!

仰卧撑FTUer
2026-05-24 10:52:52
巳蛇:5月24号至31号注意!有人正在寻你,他是你命中的贵人

巳蛇:5月24号至31号注意!有人正在寻你,他是你命中的贵人

匹夫来搞笑
2026-05-24 14:49:31
太突然!知名网站申请破产,曾红极一时!官网停摆APP下架...

太突然!知名网站申请破产,曾红极一时!官网停摆APP下架...

深圳好玩
2026-05-23 10:14:29
钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

钱再多有什么用?67岁身价千万的李幼斌现状曝光,给所有人提了醒

聊历史的阿稼
2026-05-24 14:23:48
卧室几乎烧报废,浙江多地发生!赶紧提醒家人,它原来一直在“偷偷加班”……

卧室几乎烧报废,浙江多地发生!赶紧提醒家人,它原来一直在“偷偷加班”……

都市快报橙柿互动
2026-05-24 11:54:49
韩媒曾警告:一旦东亚开战,韩导弹将轰炸北京,同时摧毁中国海军

韩媒曾警告:一旦东亚开战,韩导弹将轰炸北京,同时摧毁中国海军

荷兰豆爱健康
2026-05-24 11:47:37
暴雨大暴雨来袭,云南这些地方请注意

暴雨大暴雨来袭,云南这些地方请注意

云南网络广播电视台
2026-05-24 12:42:44
含剧毒,无解药!每家每户都有,千万别乱吃,哪怕煮烂了也没用!

含剧毒,无解药!每家每户都有,千万别乱吃,哪怕煮烂了也没用!

健康科普365
2026-04-14 16:25:08
没想到,马斯克离开中国才一天,78岁母亲一句话让中国网友破防

没想到,马斯克离开中国才一天,78岁母亲一句话让中国网友破防

林轻吟
2026-05-21 19:28:55
周鹏可能退役!深圳队有望租借广东天赋锋线,朱芳雨确认放人?

周鹏可能退役!深圳队有望租借广东天赋锋线,朱芳雨确认放人?

绯雨儿
2026-05-24 12:00:13
堂哥去相亲,双方都没看上对方,正好到饭点堂哥请对方去吃饭…

堂哥去相亲,双方都没看上对方,正好到饭点堂哥请对方去吃饭…

朗威谈星座
2026-05-24 08:34:32
江疏影海外产子风波升级,遭正房儿子当众羞辱?王传君的话应验了

江疏影海外产子风波升级,遭正房儿子当众羞辱?王传君的话应验了

往史过眼云烟
2026-04-26 14:48:53
2026-05-24 16:23:00
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1091164文章数 1334889关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

矿难搜救现场调度指挥斥问企业人员:难道还要隐瞒吗

头条要闻

矿难搜救现场调度指挥斥问企业人员:难道还要隐瞒吗

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

李晨郑恺冲上热搜!跑男停宣引热议

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

手机
亲子
本地
旅游
公开课

手机要闻

拉美Q1:三星第一,小米第二,荣耀大亮

亲子要闻

孩子近视涨得快?2026年热门离焦镜品牌讲解

本地新闻

用云锦的方式,打开江苏南京

旅游要闻

峨眉山、牛背山景区发布涉门票最新公告

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版