网易首页 > 网易号 > 正文 申请入驻

应对AI大模型新的安全挑战,OpenAI、蚂蚁集团联合出招

0
分享至

去年年初,ChatGPT引爆了新一轮AI浪潮。在人们期待大模型能够为各行各业带来颠覆性变革的同时,也不得不承认,大模型创造了新机遇,但也带来了新的安全风险。

比如,基于大模型的高效内容生成特质,黑客的攻击成本和门槛变低,发动更加密集的攻击变得容易,助长黑客行为;基于生成式AI在多种语言和信息整合的优势,伪造一个极其逼真的骗局成本和时间降低,网络钓鱼行为规模范围、实施效率大幅度提升;还有老生常谈的数据泄漏问题,将企业的安全、隐私等置于极大的威胁中。

难以想象,如果不对大模型的安全问题加以防御,任由其野蛮生长,将会带来多么严重的后果。

如今,经过去年持续一年多的“百模大战”后,大模型进入落地应用阶段,开始走进千行百业,与各种各样的场景进行深度融合。基于此,面对持续发展的大模型所带来的安全威胁与挑战,如何采取积极措施,在已有的、传统的安全工具、策略体系下,进行技术和方法的革新,打造安全可信的大模型,成为全球范围内各大大模型厂商、从业者关注的焦点所在。

WDTA就大模型安全发布国际标准,AI安全评估测试进入新基准

4月15日-19日,第27届联合国科技大会在瑞士日内瓦召开。其中,4月16日,在以“塑造AI的未来”为主题的AI边会上,世界数字技术院(WDTA)发布了一系列突破性成果,包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。


WDTA发布大模型安全国际标准,OpenAI、蚂蚁集团、科大讯飞等参编

据雷峰网了解,世界数字技术院(WDTA)是一家在日内瓦注册的国际非政府组织,遵从联合国指导框架,致力于在全球范围内推进数字技术,促进国际合作。

其中AI STR(安全、可信、负责任)计划是WDTA的核心倡议,旨在确保人工智能系统的安全性、可信性和责任性。蚂蚁集团、华为、科大讯飞、国际数据空间协会(IDSA)、弗劳恩霍夫研究所、中国电子等均为其成员单位。

而此次会议上发布的两项国际标准——《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》,是国际组织首次就大模型安全领域发布的国际标准,代表着全球人工智能安全评估和测试进入新的基准。

据悉,这两项国际标准是由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。

据了解,《生成式人工智能应用安全测试标准》(以下简称《标准》)由WDTA作为牵头单位,该《标准》概述了一个综合框架,用于测试或验证下游人工智能应用程序的安全性,特别是那些使用大语言模型(LLM)构建的应用程序。

整体来看,该《标准》定义了人工智能应用程序架构每一层的测试和验证范围,包括基础模型选择、嵌入和矢量数据库、RAG或检索增强生成、APP运行时安全等,确保人工智能应用程序各个方面都经过严格的安全性和合规性评估,保障其在整个生命周期中免受各种威胁和漏洞的侵害。

而《大语言模型安全测试方法》(以下简称《测试方法》)由蚂蚁集团牵头编制。

相较于《标准》,《测试方法》则为大模型本身的安全性评估提供了一套全面、严谨且实操性强的结构性方案,提出了针对大语言模型的安全风险分类、攻击分类和分级方法以及测试方法,并率先给出了四类不同攻击强度的攻击手法分类标准,提供了严格的评估指标和测试程序等,可有效解决大语言模型固有的复杂性,测试其抵御敌对攻击的能力,使开发人员和组织能够识别和缓解潜在漏洞,并最终提高使用大语言模型构建的人工智能系统的安全性和可靠性。

聚焦大模型安全风险,筑牢防线刻不容缓

会上,WDTA人工智能安全可信负责任工作组组长黄连金表示,这两项标准汇集了全球AI安全领域的专家智慧,填补了大语言模型和生成式AI应用方面安全测试领域的空白,为业界提供了统一的测试框架和明确的测试方法,有助于提高AI系统安全性,促进AI技术负责任发展,增强公众信任。

正如黄连金所言,这两项标准的制定集齐了国内外多位专家学者的智慧,而像OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等大模型领域厂商,以及360、奇安信、深信服等安全厂商,也都在打造安全可信的大模型的道路上进行了长期的探索。

比如,作为ChatGPT、GPT-4等最前沿大模型技术背后的公司,OpenAI在去年7月宣布成立Superalignment团队,由联合创始人Ilya Sutskever和Jan Leike共同领导,目的是创建一个接近人类水平的、负责模型对齐的“AI研究员”,即用AI来监督AI。

作为推动大模型快速发展背后的算力提供者,英伟达在去年4月推出了一款名为NeMo Guardrails的软件,该软件能够为AI模型设置安全“护栏”,避免输出一些错误的事实、涉及有害的话题或导致安全风险,以解决大模型存在的“幻觉”难题。

今年3月,国内安全厂商360发布360安全大模型3.0版本,奇安信、深信服等安全厂商也都相继发布AI+安全产品,在探索安全大模型的道路上进行了深度探索。

而作为此次《大语言模型安全测试方法》牵头编制方的蚂蚁集团,更是在安全领域有着丰富的经验。

众所周知,蚂蚁集团最初是从支付宝这一小工具诞生,发展至今,而在涉及人们“钱袋子”的问题上,安全和可靠的重要性不言而喻,因此,从2015年起,蚂蚁集团就开始积极投入可信AI技术研究,目前已建立了大模型综合安全治理体系。

据雷峰网了解,去年9月,蚂蚁集团自研了业界首个大模型安全一体化解决方案“蚁天鉴”,包含大模型安全检测平台“蚁鉴”、大模型风险防御平台“天鉴”两大产品,可用于AIGC安全性和真实性评测、大模型智能化风控、AI鲁棒和可解释性检测等。

此次发布的《测评方法》,便是蚂蚁集团基于“蚁天鉴”AI安全检测体系的应用实践,与全球生态伙伴交流编制。

此外,蚂蚁集团在公司内成立了科技伦理委员会和专门团队来评估和管理生成式AI的风险,公司所有AI产品均需通过科技伦理评测机制,确保AI安全可信。

不仅如此,去年2月,蚂蚁集团还在设立公司内部科技伦理委员会的基础上,成立科技伦理顾问委员会,定期邀请AI领域的专家学者围绕着科技伦理治理体系建设、生成式AI治理、大模型风险管理等议题进行深入讨论,力求打造“安全、合规、可控、可靠”的大模型。


蚂蚁集团王维强作为标准参与单位代表,在会上发言

正如蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会上所言,“生成式AI将释放巨大的生产力,但也要对它带来的新风险高度警惕。”

大型科技公司应在促进生成式AI安全和负责任的发展中发挥关键作用,利用其资源、专业知识和影响力推动最佳实践,构建一个优先考虑安全、隐私、可靠和伦理优先的生态系统。例如,通过制定行业标准与指南,为开发和部署生成式AI系统的开发者和机构提供清晰指导;投入研发并开放保障生成式AI安全的工具,形成产业共治。

如今,当大模型开始走进各行各业,在成千上个场景落地的时候,打造安全、可信、可靠的大模型已经不是某一家大模型厂商需要解决的问题,而应该是产业各界携手,群策群力,一起面对、迎接AI新时代的挑战,创造更美好的未来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老布走了,外交部连夜举行媒体吹风会,啥叫吹风会?

老布走了,外交部连夜举行媒体吹风会,啥叫吹风会?

北京作家编剧肥猪满圈
2024-04-30 18:12:46
这就是赤裸裸地骗人!萧峰跳崖处,这都能立碑,我也是醉了

这就是赤裸裸地骗人!萧峰跳崖处,这都能立碑,我也是醉了

作家李楠枫
2024-04-29 20:08:25
宁波楼市全军覆没,拖累宁波楼市,宁波房价降至不足25000元

宁波楼市全军覆没,拖累宁波楼市,宁波房价降至不足25000元

有事问彭叔
2024-04-30 15:45:47
谁是湖人真核?季后赛至今,浓眉122分63篮板16助攻,那詹姆斯呢

谁是湖人真核?季后赛至今,浓眉122分63篮板16助攻,那詹姆斯呢

天气如你
2024-04-30 03:31:08
储户与柜员的新烦恼:银行卡“非柜”交易限额调低频现,便捷用卡与风险防控难平衡

储户与柜员的新烦恼:银行卡“非柜”交易限额调低频现,便捷用卡与风险防控难平衡

21世纪经济报道
2024-04-30 18:38:02
总规模6台14线,广深第二高铁始发站获批开建

总规模6台14线,广深第二高铁始发站获批开建

西莫的艺术宫殿
2024-04-30 20:56:38
江苏一女子穿半透明装乘地铁,市民吐槽不雅观:就跟没穿一样

江苏一女子穿半透明装乘地铁,市民吐槽不雅观:就跟没穿一样

大宗看萌宠
2024-04-30 20:25:57
伦纳德宣布赛季报销!快船陷入绝境,哈登和乔治出现悲观情绪

伦纳德宣布赛季报销!快船陷入绝境,哈登和乔治出现悲观情绪

张敏
2024-04-30 11:31:30
闹大!男子买切糕结账时要1.2万元老板:不是按斤是按克 评论炸锅

闹大!男子买切糕结账时要1.2万元老板:不是按斤是按克 评论炸锅

黑哥侃娱
2024-04-30 22:48:13
闹大了!东航客机事件后续 通报来了 涉事人员恐开除 航空公司受牵连

闹大了!东航客机事件后续 通报来了 涉事人员恐开除 航空公司受牵连

喜欢农家生活的阿律
2024-05-01 00:16:05
2024年一季度广东各市GDP成绩揭晓,几家欢喜几家忧

2024年一季度广东各市GDP成绩揭晓,几家欢喜几家忧

侃故事的阿蚌
2024-04-30 17:55:39
连炮衣都掀了,日本当时可能真敢开火!

连炮衣都掀了,日本当时可能真敢开火!

杂谈天下式
2024-04-30 00:25:49
北京车展上的“失意者联盟”:冷清的二线豪华品牌“路在何方”?

北京车展上的“失意者联盟”:冷清的二线豪华品牌“路在何方”?

户外小阿隋
2024-04-30 23:09:41
鲍尔默向哈登做出重要承诺,后悔1.5亿给了小卡,将招募2大超巨

鲍尔默向哈登做出重要承诺,后悔1.5亿给了小卡,将招募2大超巨

记树与海
2024-04-30 10:45:02
快船核心球星伦纳德表示:我们要接受哈登的领导&他才是真正领袖

快船核心球星伦纳德表示:我们要接受哈登的领导&他才是真正领袖

小豆豆赛事
2024-04-30 11:45:20
真诚地给华为道个歉

真诚地给华为道个歉

关尔东
2024-05-01 00:25:49
开业15年,深圳市中心又一家老影城结束营业!会员卡可退费

开业15年,深圳市中心又一家老影城结束营业!会员卡可退费

南方都市报
2024-04-29 23:20:23
朴志效玩周子瑜伤痛梗,引发粉丝不满,认为twice团魂像个笑话

朴志效玩周子瑜伤痛梗,引发粉丝不满,认为twice团魂像个笑话

娱乐寡姐
2024-04-29 22:45:47
性生活互吻私处,真的健康吗?

性生活互吻私处,真的健康吗?

徐海洋的历史故事
2024-02-19 14:43:47
穿Prada打网球的李娜,这简直又美又飒啊!

穿Prada打网球的李娜,这简直又美又飒啊!

娱乐圈酸柠檬
2024-04-30 16:38:57
2024-05-01 03:00:49
雷峰网
雷峰网
关注智能与未来!
63987文章数 655097关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

媒体:余承东将卸任华为终端BG CEO

头条要闻

媒体:余承东将卸任华为终端BG CEO

体育要闻

名宿观战,罗本和克洛泽一同现身安联球场观看拜仁vs皇马

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

查道炯:中国经济的外部挑战与应对思考

汽车要闻

越野老炮最爱 哈弗新H9新增2.4T柴油机

态度原创

游戏
房产
亲子
公开课
军事航空

钢岚:聊聊改版后的新守护提费斯!官方这次的野心似乎有点大啊!

房产要闻

刺激!市区惊现1.1w/㎡新房+现房!海口楼市,五一打响价格战!

亲子要闻

4月30日是#国际不打小孩日 没有一种爱需要用暴力表达,希望父母对待孩子多些理性与引导#教育 #萌...

公开课

父亲年龄越大孩子越不聪明?

军事要闻

以官员:以总理求助拜登阻止逮捕令

无障碍浏览 进入关怀版