![]()
认真阅读下面的文章,并思考文末互动提出的问题,严格按照互动:你的答案格式在评论区留言,就有机会获得由湖南科学技术出版社提供的优质科普书籍《令人着迷的化学》。
![]()
图源: Freepik
当人们的私人数据被第三方获取时,即使数据是匿名的,也始终存在被识别的可能性。差分隐私是一种衡量数据库泄露的信息对隐私构成多大风险的方法。
如何安全公开医疗数据?
![]()
图源: Freepik
你对自己的匿名健康记录被用于医学研究有何感想?你或许想,虽然它属于敏感数据,但全国范围的集体医疗记录蕴藏着对科学和公共卫生至关重要的信息。既然你的名字已被去掉,拿到数据的人自然也无法识别你的身份了吧?
事实上:并非如此。以1991年至1997年担任马萨诸塞州州长的威廉·韦尔德为例:1997年,该州向研究人员开放雇员的健康记录时,韦尔德曾向民众保证,从这些匿名数据中无法识别任何人的身份。然而就在记录公开几天后,韦尔德收到了一个信封,里面装着他自己的健康记录(说明匿名记录的身份信息被识别了)。信封由当时麻省理工学院的研究生拉塔尼亚·斯威尼寄出,她将数据库中残留的身份信息,即性别、出生日期和邮政编码,与选民登记记录进行了交叉比对。这足以从匿名数据中分辨出韦尔德的信息。
从这个例子不难发现,如果要向第三方开放敏感数据,仅仅做匿名化处理是不够的。这不仅适用于为创造公众福祉而发布的健康记录。许多机构掌握着我们的信息,并且可以从这些信息中赚不少钱。在未经过信息提供者特别授权的情况下,任何信息的出售都应该以保护用户隐私的方式进行。
隐私攻击
一种保护数据库中存储的隐私信息的方法是,仅提供汇总统计数据,不允许对数据库的直接访问。例如,第三方只被允许查看对数据库中多个条目计算得到的总和或平均值,这样个人的记录就被纳入到总体数据里。持有数据的机构可以公开发布此类统计数据,或者允许第三方通过交互式计算机系统等方式查询数据库以获取这些数据。
![]()
统计数据可以将个人隐私藏匿起来。图源: Freepik
看上去这种方法已经很安全了,但人们很快意识到,只需巧妙地组合统计数据就能揭露机构试图保护的信息。例如,假设数据库中包含某个城市所有人的收入,并且第三方可以访问平均值。“攻击者”只需查找所有条目的平均值,然后查找除X之外所有条目的平均值,就能获取X的确切值。换句话说,知道两个平均值(包含和不包含 X)足以计算出X的确切值。
重复此操作,攻击者就能计算出列表中的所有条目。然后,攻击者像拉塔尼亚·斯威尼那样将每条数据与其他信息进行交叉比对,即使列表是匿名的,也能由此确认部分条目背后的身份信息。攻击者随后可以在网上发布个人收入信息、出售这些信息,或者勒索钱财以换取信息保密。
面对这个问题,有一个简单的解决方案:禁止查询相关类型的平均值。但更深层的问题随之而来。为了让第三方能够从数据库中获取有意义的信息,机构通常授予他们更多访问权限,而不仅仅是一两个汇总统计数据。例如,人口普查结束后,相关机构通常会公布数十亿条统计数据。按照我们提出的方法挨个检查各种统计数据组合,判断能否从某种组合中识别个人身份,进而判断数据是否安全,是一项不可能完成的任务(事实上,国家统计局采取了各种严格的措施来确保数据被保护)。
随机性保护你的隐私
![]()
随机性对保护数据隐私是必要的。图源: Freepik
保护隐私的另一种方法是增加一些随机性。举个简单的例子,假设你正在对 100 名青少年进行生活习惯与诚信行为调查,其中包含“是否欺骗过父母”这样的敏感问题 —— 这类问题涉及个人诚信与家庭信任,受访者很可能因害怕被指责、影响自身形象而不愿如实回答,但聪明的你想到了解决办法。你让他们从钱包里拿出一枚硬币,并且在回答问题前去一个私密的地方抛掷它。如果硬币正面朝上,无论真实答案是什么,都回答“是”,如果硬币反面朝上,就如实回答。
这样,即使家长们知晓每个人的答案,也能保护被调查者不被怀疑。因为回答“是”的那些人可以说自己抛出了正面,没有人能反驳他们的说法。同时,由于你了解随机性的本质(它来自抛硬币),你仍然可以估计这100人中有多少人欺骗过父母,操作方法如下。
随机化回答
由于硬币正反面朝上的概率是五五开,所以你已知有至少约50名受访者会在“欺骗父母”问题上回答“是”,因为他们抛硬币的结果是正面朝上。如果收集到答案中“是”的总数是60个,你就知道其中大约有10个来自如实回答的人。这10个真实答案来自大约50个抛硬币时掷出反面的人,意味着在掷反面的人中,有10/50(即20%)的人有过欺骗行为。
由于你的样本量很大,而且说真话的人是通过抛硬币随机选出的(而不是基于某个特定特征),所以可以假设说真话的人的特征能代表整个100人的样本。如果选择100人样本来代表所有人,那么就可以估计出有多少人有过欺骗行为:大约是20%。你能够在不危害任何人隐私的情况下做出此估计。
隐私损失的基本定律
我们刚才描述的技术被称为随机化回答,它在20世纪60年代被发展起来,远早于大数据时代的当下。这个技术还有更复杂的变体,但它们基于相同的理念:随机性可以保护个人隐私,同时不影响推断出重要的统计估计值。
这个想法可以推广到我们前文讨论的情景中,即数据库中的单条数据不会被公开,但某些统计数据会被发布。现在我们知道,与其发布精确的统计数字,不如在其中添加一些随机性。这次我们不再需要抛硬币。你可以设计一种算法,由一个合适的概率分布决定要添加的随机性。
当然,这其中存在一个权衡。添加过多的随机性会让模糊的统计数据变得毫无意义,添加过少的随机性意味着隐私得不到充分保护。我们在上文中已经见识过类似的权衡:发布的统计量过少会使数据集对那些想要从中学习的人来说毫无用处,发布过多统计量可能意味着隐私受到损害。
事实上,这些权衡可能导向不可挽回的后果。2003年,科比·尼西姆(Kobbi Nissim)和伊里特·迪努尔(Irit Dinur)发表了一项几乎灾难性的理论成果。他们从理论上表明除非添加大量随机性,否则一个拥有足够多统计数据的聪明对手可以精确地重建数据库。对攻击者而言,单一统计数据几乎不会泄露任何个人信息,但仍是一个小小的漏洞,只需将多项统计数据放在一起考虑就可以彻底摧毁个人隐私,即使这些数字都加入了一些的随机性。
这一结果被称为信息恢复的基本定律。它就像自然法则一样不可避免。
差分隐私
考虑到基本定律对人们的指导作用,应当有至少一种衡量从数据集中得到的信息在发布时造成隐私泄露多少的方法。受到尼西姆和迪努尔的研究成果的影响,科学家提出了差分隐私的概念,解决的正是这个问题。
为了理解这个概念,假设你有一个数据库(或多个数据库),并且正在决定公开哪些统计数据。因为统计数据(即使是添加了随机性的统计数据)是由计算和算法产生的,所以你的问题变成了允许使用哪种算法。差分隐私背后的基本思想是,隐私风险可以通过算法输出对输入中单条数据的依赖程度来衡量。如果对保留或删除该条数据的数据库,一个算法的输出结果几乎相同,那么算法就被认为有相对低的隐私风险。
![]()
差异隐私可以帮助数据发布组织和监管机构。
如果情况确实如此,那么人们就可以对收录在数据库中的隐私放心,因为他们的信息对任何被发布的统计数据几乎都没有影响,和信息没有被数据库收录一样安全。这个想法与上文中讨论的收入信息泄露的例子相呼应:正是在包含和不包含特定条目的情况下计算出的平均值之间的差异,才使得个人收入被识别。
差分隐私有几种定义,由于它们相当专业,我们在此就不一一列举了。下文将展示由 Cynthia Dwork、Frank McSherry、Kobbi Nissim 和 Adam D. Smith 于 2006 年提出的纯差分隐私的定义。它包含一个衡量算法输出对单个条目的依赖程度的参数 ε,从而衡量对单个条目隐私的保护程度。随机性在这里至关重要。在算法的输出中添加随机性能增强隐私保护,但也会降低输出信息的实用性。
差分隐私指标可以帮助持有敏感数据的组织在统计数据的实用性和隐私风险之间取得平衡。他们可以设定一个“隐私损失阈值”,并确保所有发布的信息都保持在阈值范围内。相对敏感的数据会被设定更低的阈值,这意味着发布的统计信息意义更弱。不太敏感的数据可以拥有更高的阈值,从而提供更准确的信息。
自21世纪初被提出以来,差分隐私已在现实生活中得到了广泛的应用。但同时,数据领域的变化也日新月异。在本文中,我们考虑的是计算(随机)统计量的传统算法,并引出了差分隐私的概念。然而,在当下的现实应用中,我们面对一个不同以往的威胁:人工智能能够识别数据中传统算法无法识别的模式。这为差异隐私的应用提供了一个全新的视角。
差分隐私的定义
![]()
差分隐私。图源:wikipedia
以下是 ε -差分隐私( ε -differential privacy)的定义。假设有一个随机化算法A,其输入为数据集,所有可能的输出构成的集合称为A的像(image)。随机化回答设 ε 是一个非负实数。若对于任意两个仅在一个数据记录上不同的数据集D 1 和D 2 ,以及A的像的任意子集 S ,均有:
![]()
则称算法A满足 ε -差分隐私。其中,Pr 表示由算法 A 内部的随机性所定义的概率。可以看出,当 ε = 0时,上述比值恒为1,即两个概率相等:无论某个个体是否出现在数据集中,算法输出落在 S 中的概率完全相同。这意味着任何观察者都无法通过算法的输出判断某个特定个体是否在原始数据中,从而实现了对个体隐私的严格保护。
作者:Marianne Freiberger
翻译:virens
审校:姬子隰
惊喜预告
今年的诺奖还会向去年那样出人意料吗?
大家可以在评论区留下你的预测
另外,别忘了10月7日晚上17:00来我们B站直播间
一起揭晓并解读诺贝尔物理学奖吧~
我们,诺奖直播见!
(直播间二维码)
fu
li
shi
jian
今天我们将送出由湖南科学技术出版社提供的《令人着迷的化学》。
![]()
在这本《令人着迷的化学》中,诺贝尔化学奖得主本·费林加将带领读者踏上一次穿越分子世界的奇妙旅程。书中以日常现象为切入点,用生动有趣的语言揭开化学的神秘面纱:维生素C如何对抗坏血病?为什么菠萝会“咬”舌头?液晶屏幕的诞生竟源自一次意外发现?石墨烯为何被称为“未来材料”?肌肉收缩的“引擎”是什么?书中不仅涵盖咖啡因、乙烯、黑色素等耳熟能详的分子,还探讨了化学在历史关键时刻的角色——从古代埃及的香水配方,到战争中使用毒气的科学反思,再到现代药物的革命性突破。每一章都融合了科学原理、历史轶事与生活应用,让复杂的化学知识变得鲜活易懂。
【互动问题:生活中还有哪些信息公开场合? 这些场合中发布方如何保护我们的信息?】
请大家严格按照互动:问题答案的格式在评论区留言参与互动,格式不符合要求者无效。
截止到本周四中午12:00,参与互动的留言中点赞数排名第二、三、五的朋友将获得我们送出的图书一套(点赞数相同的留言记为并列,下一名次序加一,如并列第二之后的读者记为第三名,以此类推)。
为了保证更多的朋友能够参与获奖,过往四期内获过奖的朋友不能再获得奖品,名次会依次顺延
*本活动仅限于微信平台
编辑:姬子隰
翻译内容仅代表作者观点
不代表中科院物理所立场
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.