开放共享原始数据集不是我们的未来
对于社会科学家来说,大数据时代带来的是大机遇:有更多机会获得人口、金融、医疗等领域内的大型数据集,对社会生活进行更详细的调查研究。然而,对于隐私保护论者来说,这样的前景十分可怕,令人担忧。他们担心,个人信息会因这些数据而被泄露出去。《科学》杂志近期文章的一项信用卡数据研究证实,这些担忧不是杞人忧天。研究显示,只需少量个人信息,就能够轻易泄露个人身份。
之前的一些研究表明,个人身份很容易被人从匿名数据集中窥探获得,庞大的个人信息库需要新的保障措施,“数据管理者应该谨慎限制对数据的访问权限。”普林斯顿大学的计算机科学家阿尔维德·纳拉亚南(Arvind Narayanan)说道,但他并没有参与这项研究。正如该研究的第一作者、麻省理工学院(MIT)应用数学家伊维斯-亚历山德拉·德蒙约(Yves-Alexandre de Montjoye)所说的那样:涉及敏感的个人信息,“开放共享原始数据集不是我们的未来。”
德蒙约的研究团队对某个国家110万人3个月时间里在1万个商店里的信用卡消费交易记录进行了分析(德蒙约说,数据来源“主要银行”的名字对研究团队严格保密,属于哪个国家也未予透露)。银行名称、信用卡号码、商店地址、甚至交易的确切时间都被从研究数据中剥离,剩下的只有元数据:消费金额、商店类型(例如,是饭店餐馆、健身房还是杂货店),以及用代码表示的消费者个体。
由于每个人的消费模式都不一样,数据有很高的“单一性”或“唯一性”,这就为德蒙约所称的“相关攻击”(correlation attack)提供了成熟的条件,通过分析比对,很容易根据人们的消费模式揭示一个人的身份,你所要做的就是将元数据信息与根据外部来源信息了解到的某个个人的一些信息资料联系起来。
在去年一个有名的“相关攻击”例子中,纽约市出租车和豪华轿车委员会向外泄露了1.73亿人次的乘车记录信息,这份数据集包括客人的乘车时间、路线,以及车资,乘客的姓名并没有包括在内。但如果加上有时间记录的名人上下出租车的录像记录,以及专门刺探名人隐私的网站博客,在破译了出租车公司泄漏的大量资料之后,很容易就能找到哪些出租车账单是哪位名人支付的。
根据出租车数据集里的某一页,德蒙约的团队模拟出信用卡元数据的“相关攻击”。他们将对应数据中每个个人的随机观察数据线索收集在电脑里,这些相当于印有时间的录像信息(这些线索模拟了人们日常生活中发生的一些信息,例如通过定位微博或有定位功能手机获得的信息)。计算机利用这些线索来辨别一些匿名信用卡使用者,然后研究人员再将一些不同的外部信息馈入算法,再次尝试,直到破译出每个人的身份。
只要4次对一个人的位置进行定位,身份识别率可高达90%。在知道那些定位点消费金额的情况下――相当于消费小票被人从垃圾箱里拣走――几乎可破译每个人的身份,只要知道一个人的三条信息,就能跟踪到这个人的全部交易史。这一发现与《科学》杂志2013年的一项研究结果相吻合,在那份研究报告中,德蒙约和他的同事对一份关于手机用户手机使用元数据的研究表明,只要对一个人的位置进行4次定位,就足以确定他们的个人身份。
防止“相关攻击”的一种方法是改变某些变量,让数据模糊化,例如,不显示交易的具体日期和价格,公开的数据集只显示交易发生的大约日期(如几周内)和价格范围。但结果表明,这样的措施并没能阻止德蒙约团队进行的“相关攻击”,相反增加了破译个人信息所需要的信息量,从单张交易收据扩展到一打收据。
但这些研究并不意味社会科学研究使用大数据的终结。“我们需要对数据进行计算利用,而不是相反。”德蒙约说。带有敏感信息的大数据,可用“看门人软件”帮助屏蔽掉不必要的信息,他说。“看门人”不允许访问个人记录,可阻挠相关攻击,但仍可允许相关研究人员访问数据中的统计学信息。
被称为“差分隐私(differential privacy)”标准算法的系统,是数据科学中最热门的话题之一。“它最适用于拥有大量数据的数据集。”微软加州山景城研究院的计算机科学家、“差分隐私”技术的先驱研究者之一辛西娅·德沃克(Cynthia Dwork)说道。她坦承,这明显背离了学术界开放数据共享的传统做法,遇到了许多科学家的抵制。
但是,如果没有这样的保障,大量信息丰富的数据库仍将成为禁区。例如,麻省理工学院开放型在线课程的大量数据积累,这是一个信息宝库,数百万学子的整个学习过程记录,是教育研究者梦寐以求的,哈佛大学的计算机科学家莎莉尔·瓦德汗(Salil Vadhan)说道。但是这些数据都被封锁起来,其部分原因是担心潜在的隐私侵犯。“如果我们可以为研究提供数据而不用担心危及隐私,可以带来很多的好处。”瓦德汗说道。
资料来源Science
责任编辑 彦 隐