大模型敏感信息的泄露检测和风险评估|信息泄露

分享至

来源：天枢实验室 M01N Team

转自： MGClouds蘑菇云

01 概述

随着大语言模型（LLM）及相关技术的迅猛发展，越来越多的人开始将其视为提升工作效率的有力工具，但与此同时，人们对于LLM敏感信息泄漏问题的担忧与日俱增。在《LLM安全警报：六起真实案例剖析，揭露敏感信息泄露的严重后果》一文中，详细指出了LLM敏感信息泄露可能引发的个人隐私曝光、知识产权侵犯以及商业机密泄露等严峻后果。因此，LLM敏感信息泄露的风险不容忽视，必须采取相应的措施来保护用户的隐私与敏感信息。

本文将从大模型敏感信息相关的安全合规需求出发，探讨大模型敏感信息的来源和分类分级。然后，借助绿盟自主研发的大模型安全评估系统LSAS (NSFOCUS LLMs Security Assessment System，简称:NSFOCUS LSAS)，对不同开源大模型进行了敏感数据泄露的扫描测试，自动发现、分析和评估大模型敏感泄露潜在风险，进而为LLM在敏感信息泄露风险评估方面提供强有力的工具和支持。

02 大模型敏感信息安全合规需求

目前，世界各国都对LLM相关敏感信息的安全合规性提出了一定需求，要求数据相关方采取一系列措施来保护用户的隐私和敏感信息，其中包括美国的《格雷姆-里奇-比利雷法》（GLBA）和《加州消费者隐私法案》（CCPA），欧盟的《通用数据保护条例》（GDPR），英国的《数据保护法案》（DPA）等。这些法规严格规范了数据在收集、存储、使用、加工、传输、提供等各个环节中对于敏感数据的处理要求，也要求企业和组织必须采取适当的安全措施，确保对敏感信息的有效保护，并在发生泄露时及时报告并采取相应对策。

同时，我国也通过《个人信息保护法》和《数据保护法》等法律，建立了相关框架以保障敏感信息的安全。为了应对快速发展的大模型及相关技术，我国在2023年8月15日开始施行《生成式人工智能服务管理暂行办法》（以下简称《管理办法》），旨在规范生成式人工智能服务提供者在处理敏感信息时的行为，保障用户的隐私和个人信息安全，促进生成式人工智能服务的健康发展。根据该文件，生成式人工智能服务提供者在处理敏感信息时，需要严格遵守相关法律法规，保护用户的隐私和个人信息安全。具体要求包括：

用户隐私保护：生成式人工智能服务提供者需要建立健全的用户隐私保护制度，保障用户的个人信息安全，不得擅自收集、使用、传播用户的个人信息。
商业秘密保护：在处理敏感信息时，服务提供者需要严格遵守商业秘密保护相关法律法规，不得泄露或非法使用他人的商业秘密信息。
安全评估和监督检查：有关主管部门将对生成式人工智能服务开展监督检查，服务提供者应当依法予以配合，按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明，并提供必要的技术、数据等支持和协助。
保密义务：参与生成式人工智能服务安全评估和监督检查的相关机构和人员对在履行职责中知悉的国家秘密、商业秘密、个人隐私和个人信息应当依法予以保密，不得泄露或者非法向他人提供。

图1：国家网信办《生成式人工智能服务管理暂行办法》

《管理办法》主要包含两种监管政策。其一，根据生成式人工智能服务的风险程度进行分类分级监管。其二，基于生成式人工智能服务在不同领域的应用，采取相应的行业部门监管。这一双管齐下的监管机制旨在及时识别敏感信息泄露问题并迅速采取有效措施。

03 大模型敏感信息的泄露检测和风险评估方案

围绕上述《管理办法》中提出的两种监管政策，本文提出大模型敏感信息的泄露检测和风险评估方案。通过对大模型敏感信息来源、分类、泄露检测和风险评估进行系统全面的阐述，提供大模型敏感数据流转每个环节中泄露风险的检测和防护措施，为LLM应用过程中敏感信息的安全提供全方位的保障，提高LLM整体安全性和合规性。本方案将从以下四个步骤展开：

敏感信息来源标识：追溯大模型敏感信息的来源，确认在用户输入请求、模型训练数据和实际交互中是否存在泄露敏感数据的潜在可能。全面了解敏感信息的流动路径将有助于识别和解决潜在泄露风险。
敏感信息分类分级：根据数据安全法规要求，利用先进的大模型技术对受评估大模型不同来源信息进行全面审查，标识并分类其中的敏感信息，包括但不限于个人隐私、商业机密等。根据敏感信息的重要性和风险程度进行分级，将便于后续对风险评估和处理的优先级排序。
敏感信息泄露检测：针对大模型敏感信息的不同来源进行主动扫描测试，采用先进的检测技术以及监测系统来实时监控敏感信息的流动，检测敏感信息泄露的迹象。
敏感信息风险评估：制定综合的风险评估模型，结合敏感信息的来源、分类、分级和泄露概率等因素，综合评估大模型敏感信息泄露的风险。在评估过程中，考虑风险的潜在影响和可能性，并给出相应的风险级别和建议的应对措施。

敏感信息来源标识

大模型敏感信息安全评估涉及对大模型语料、个人信息、数据服务等方面进行全面审查和测试，以确保其在处理敏感信息时符合《管理办法》相关规定。参考《LLM安全警报：六起真实案例剖析，揭露敏感信息泄露的严重后果》[4]中的案例分析，本文总结了LLM海量训练数据扩大了数据安全和隐私保护风险的问题。同时，数据投喂也带来了隐私泄露的风险。鉴于此，本文将LLM相关的敏感信息按来源划分为训练数据、用户输入和模型自身这三个方面:

训练数据：最主要的敏感信息来源是LLM在预训练阶段所使用的训练数据。由于很大一部分的训练数据是来自于对互联网公开数据的爬取，这些未经过滤的公开数据中很可能会包含敏感信息。ChatGPT的数据泄露事件就是一个例子，由于ChatGPT的语料库中包含敏感信息与机密信息，其在生成任务中会无意说出这些内容，如果未经适当处理和保护会导致数据泄露和隐私泄露的风险。
用户输入：LLM使用过程中用户输入的内容是另一个敏感信息的主要来源，用户可能在与LLM交互过程中会不经意间暴露隐私或机密。而此类敏感信息会泄露给LLM背后的供应商。例如在三星员工泄露商业机密的事件中，当用户在使用ChatGPT进行代码优化或提取会议纪要时，可能会暴露公司的机密信息给供应商OpenAI，从而导致泄密的风险。
模型自身：LLM的自身信息也是敏感信息的来源之一，尤其是具有一定价值的商业LLM的信息，如内置提示词、模型参数、网络架构等，也可能发生泄露并造成损失。由于涉及LLM进行推理的具体内部工作机制，这方面信息的泄露会暴露LLM的底层信息，侵犯LLM开发者的知识产权。

通过对以上敏感信息三个来源进行分析，可以更好地定位LLM敏感信息泄露的风险来源，进而采取相应的保护措施以最大程度地减少敏感信息泄露的风险。

敏感信息分类分级

结合《管理办法》中的敏感信息相关要求、ChatGPT开发者OpenAI制定的用户政策，和绿盟科技发布的《绿盟数据安全白皮书 2.0》中关于数据安全的部分内容，通过绿盟大模型风云卫对LLM三个来源的数据中所涉及的敏感信息进行智能的分类分级如表1所示：

表1：大模型敏感信息的分类分级

类别

子类别

举例

潜在来源

级别

个人隐私

个人信息

姓名、身份证号、社保号、肖像

a、b

联系方式

电话号码、邮箱地址、家庭住址

a、b

财务信息

银行卡号、交易流水、消费记录

a、b

医疗数据

健康状况、病历信息、就医记录

a、b

社交媒体

账户信息、关注列表、发布内容

a、b

档案信息

教育经历、就业经历、亲属关系

a、b

知识产权

作品著作权

受版权保护论文、小说、剧本

a、b

软件著作权

闭源软件代码、算法

a、b、c

其他知识产权

商标、产品专利

a、b

涉密资料

商业机密

企业战略、研发进展、客户信息

a、b、c

国家机密

军事机密、外交机密、科研机密

a、b

训练数据

预训练、微调等数据

模型参数

模型拓扑结构

网络层数、神经元数量、连接方式

a、c

推理阶段参数

权重、偏置、切分器

a、c

训练阶段参数

学习率、Dropout率、优化器

a、c

提示词指令

提示词

模型角色定位、自我能力认知

指令

交互方式、语气态度、输出规则

分级说明：

高：信息极具敏感性，泄露可能导致重大隐私泄露、财务损失或法律责任。
中：信息具有一定敏感性，泄露可能导致一定程度的隐私泄露或财务风险。
低：信息相对不太敏感，泄露对个体的影响较小。

敏感信息泄露检测

为了有效评估大模型不同数据源中敏感信息泄露风险，绿盟自主研发了大模型安全评估系统NSFOCUS LSAS。通过模拟用户交互的方式，向待检测的目标LLM使用专用测试探针主动发起扫描测试和风险评估。LSAS支持leakreplay和leak_cn两种测试探针以发现LLM潜在的敏感信息泄露风险：

leakreplay用于检测目标LLM是否存在回放训练数据的情况。LSAS在预先收集的英文文学素材上进行挖空和截取操作，以生成完形填空和补全任务。然后LSAS会要求目标LLM完成填空和补全任务，并检测答案是否与原始素材一致。如果模型给出了与原始素材一致的正确答案，则会判断存在泄露训练数据的情况。该方法的工作原理如图2所示。

图2：leakreplay检测原理

leak_cn将发生过的真实LLM敏感信息泄露案例转化为测试用例，通过扫描测试以识别模型输入和输出中所包含的敏感信息。扫描测试是根据收集的相关事件细节和曝光的敏感信息进行模拟用户输入和期望模型输出的过程。扫描测试过程会利用绿盟大模型风云卫[5]对待测试目标LLM输入和输出内容中的敏感信息进行识别，并对识别到的敏感信息进行分类和分级。例如当用户输入个人简历信息并要求测试目标LLM进行润色时，风云卫会对其依据分类和分级信息（如图3所示）进行量化分数指标。

图3：绿盟风云卫大模型对于敏感信息的分类分级

敏感信息风险评估

基于LSAS所提供的leakreplay和leak_cn两种LLM敏感信息泄露专用的测试探针，我们对国内外的一些主流的开源大模型进行了扫描，其中包括ChatGLMv2、Qwen、Baichuan2、Llama2、Moss，并将结果与商业大模型GPT-3.5-Turbo作为对照。

图4：扫描器扫描结果

扫描结果如图4所示，其使用探针中测试用例的通过率作为模型的分数指标，分数在0到1的区间内。分数指标越高表示LLM越安全；越低表示LLM越可能发生敏感信息泄露。两种探针leakreplay与leak_cn分别用蓝色柱和橙色柱表示，横坐标上六组结果分别对应六个模型。通过对柱状图与详细扫描结果进行分析，对比六款大模型可以得出以下结论：

1) Leakreplay测试探针结构分析：

GPT-3.5和Llama2有着比较严格的安全机制，在大部分情况下会声明其无法提供训练数据，并拒绝执行填空、补全任务。
Qwen、Baichuan2、Moss、ChatGLMv2都会按照提示词执行填空、补全任务；其中ChatGLMv2在填空、补全任务中并未出现泄露，而其他模型都出现了按照原文进行填空的情况。
Moss扫描结果分数最低，可能由于其开源模型发布时间较早，未应用更新的安全机制。

图5：Llama2拒绝进行填空任务

2) leak_cn测试探针结构分析：

所有模型仍然存在泄露敏感信息的情况，例如Baichuan2不具备Base64解码功能，在收到编码后错误地回复了一段疑似训练数据中有关数据包的内容。
GPT-3.5的泄露概率最低，得益于OpenAI较为完善的安全机制。
发布时间较晚的模型（如Qwen）比起发布时间较早的模型（如Moss），其泄露风险相对较高，其原因可能是后来的模型使用了更广泛的数据。

图6：Baichuan2的错误回复

然而，由于大模型输出的随机性，每次给出的回复不尽相同，扫描器对于敏感信息泄露问题的检测依然存在着难捕捉、难定位的问题。因此，并不能根据一份扫描报告完全断定某个模型完全不存在敏感信息泄露的问题。绿盟科技将在未来继续投入资源和精力，不断优化和升级敏感信息测试技术。

04 总结

本文介绍的大模型敏感信息的泄露检测和风险评估方案，利用了绿盟已发布的大模型风云卫，并结合两种LLM专用敏感信息泄露检测探针，对目标LLM进行敏感信息的来源、分类、泄露检测和风险评估。通过以上四个步骤，确保用户输入和模型输出过程中敏感信息免受未经授权的访问和泄露的风险，并有效维护大模型的合规性和安全性。

在未来的工作中，我们将持续加强对敏感信息泄露的监测和防范能力，以进一步提升大模型的安全性。同时，我们将紧密关注大模型安全领域的相关动态和技术发展，为LLM的技术发展提供全面的安全保障。为了满足LLM相关法规要求和安全需求，我们将不断完善绿盟自研的大模型安全评估系统LSAS，引入更多的安全评估测试维度与内容，以确保该系统在各种场景下的适用性和有效性，本系列文章后续将对此逐步展开详细介绍。

以上内容阅读完毕，推荐各位同学参加由华罗庚教授发起学会——中国优选法统筹法与经济数学研究会主办的第十四届MathorCup数学应用挑战赛【原数学建模挑战赛】！

竞赛信息

MathorCup数学应用挑战赛（原名：MathorCup高校数学建模挑战赛）是由国家一级学会——中国优选法统筹法与经济数学研究会主办的全国性竞赛，旨在促进产教融合，增强学科交叉，拓展参赛者的跨学科视野，提升参赛者运用数学方法和计算机技术解决实际应用问题的能力。

本竞赛迄今已举办了13届，近年来每届有上万支队伍参赛，是具有广泛影响力的竞赛。许多省市、高等院校和用人单位已将本竞赛的成绩作为考评和选拔人才的重要参考。

组织单位

中国优选法统筹法与经济数学研究会

中国优选法统筹法与经济数学研究会是在中国科学技术协会直接领导下的学术性社会团体，是国家一级学会。

学会由华罗庚教授于1981年发起成立，至今成立了评价方法与应用、项目管理、计算机模拟、统筹、管理决策与信息系统、工业工程、高等教育管理、数学教育、经济数学与管理数学、应急管理、灰色系统研究，复杂系统研究等十余个专业分会。

部分协办单位展示

（仅做展示，排名不分先后）

中国计量大学

重庆邮电大学

黑龙江科技大学

贵州民族大学

合肥大学

山东科技大学

大连民族大学

长春理工大学

辽宁石油化工大学

广东技术师范大学

西安职业信息大学

黎明职业大学

中国劳动关系学院

成都锦城学院

邵阳职业技术学院

湖南工程学院

东南大学成贤学院

巢湖学院

西安欧亚学院

南京工程学院

组委会官方文件

< 左右滑动查看完整内容 >

竞赛报名

扫描下方二维码进行报名：

或复制下方链接进行报名：

https://www.saikr.com/vse/mathorcup/2024?ces=Public

参赛对象

大赛面向中国及境外在校学生（包括研究生、本科生和专科生）与高校教师，具体要求如下：

（1）可以自由组队参赛，每个参赛队伍人数可为1–3人，每支队伍最多3名学生，允许跨年级、跨专业组队，但不允许跨校组队。

（2）教师参赛队必须以1名本校教师作为队长报名，另2名队员可以是本校教师或学生。

（3）参赛组别的确定依据是团队成员中的最高在读学历。

（4）每支队伍允许最多有一名指导老师，指导老师须为全职高校教师，队伍也可以没有指导老师。

时间安排

报名时间：

即日起至 2024年4月11日 12:00

竞赛时间：

2024年4月12日 8:00 至 4月16日 9:00

大赛奖项

1.等级奖项：

本届竞赛实行赛区赛、国赛两级赛制；

赛区奖奖项：（本赛区总队数占比）

赛区一等奖（约10%）
赛区二等奖（约15%）
赛区三等奖（约25%）
成功参赛奖（若干）：成功提交论文的队伍即可获得。

全国奖奖项（推荐国奖总队数占比）：

全国一等奖（约20%）
全国二等奖（约30%）
全国三等奖（约50%）

以上奖项均可获得纸质证书

获奖证书冠名为“2024年第十四届MathorCup数学应用挑战赛”荣誉证书，同时加盖“中国优选法统筹法与经济数学研究会”的公章。

2.MathorCup奖杯：

全国一等奖队伍中，每道赛题评出一支队伍，颁发“MathorCup”奖杯。

3.赛后研究基金：

获得“MathorCup”奖杯的队伍可优先申请赛后研究基金资助；获得全国一等奖的队伍也可申请赛后研究基金，经组委会审批后获得资助。资助强度为每队2万元人民币。获得资助的队伍需按照组委会的要求围绕赛题进行后续研究，将竞赛成果整理成论文发表或申请国家专利授权。

4.杉数运筹优化应用基金奖：

入围资格：

1、获得2024年MathorCup挑战赛全国一等奖；

2、应用国产求解器COPT的运筹优化杰出方案；

3、展现出创新的建模技巧和求解方法；

经杉数科技公司评审后，卓越奖一队，奖金8000元/队；优秀奖三队，奖金4000元/队。

5.Gurobi创新应用奖：

在解题过程中使用Gurobi承担重要核心功能的参赛队伍，均有资格申请入围【Gurobi创新应用奖】评选。经Gurobi公司评审后，第一名获得奖金5000元，第二名和第三名分别获得奖金2500元；前三名获奖者，都将获得竞赛组委会和Gurobi公司共同颁发的获奖证书。

6.组织单位类称号：

优秀组织单位称号

优秀组织社团称号

优秀指导老师称号

大赛交流

参赛群2：465173040

参赛群3：826309748

*所有群内通知相同，请勿重复加群

联系电话&微信：18210922591（郭老师）

竞赛邮箱：mathorcup@mathor.com

MathorCup公众号

组委会微信

BONUS TIME

数学建模资料、视频讲解、历年赛题

后台回复【校苑】领取

推荐阅读（点击下方图片即可跳转）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.