de-anonymization:去匿名化
去匿名化(de-anonymization,de-anonymization)是一种数据挖掘(data mining)策略,其中的匿名数据和其它数据来源相互对照来重新识别匿名的数据来源。区别一个数据来源和另一个数据来源的任一信息都能用于去匿名化。 随着美国政府和其它国家进行进一步的开放政府活动,大众可以通过互联网得到更多的数据。这些数据中的很多已经清理(data scrubbing)过,用来创建政府所谓的“有限的数据集”。个人验证信息(PII),如名字、地址和身份证号都从有限数据集中移除,因此数据的特定来源还是匿名的。这种匿名保证保护了来源的隐私性并让政府可以合法地与第三方共享有限数据集,不需要编写许可。这样的数据对搜索者来说很有价值,尤其是在医疗中。但隐私倡导者还是担心尽管数据清理过,但是太多数据可用的话,某个人的身份会被发现。 尽管去匿名化(de-anonymization,de-anonymization)的概念并不新,该术语在2006年Arvind Narayanan和Vitaly Shmatikov参加网飞公司(Netflix)主办的竞赛时成为头条,网飞是一种流行的视频出租服务。Narayanan和Shmatikov在一个数据集(data set)中应用了他们的去匿名化方法,这些数据集中有500,000名会员的匿名电影评级,该方法能够为大量有针对性的用户成功地识别网飞数据。根据Narayanan和hmatik所说,去匿名化需要数据大量、颗粒状且在时间和环境变化时非常稳定。 另见:关联规则(association rule)、商业智能(business intelligence)、在线分析处理(OLAP)、模糊逻辑(fuzzy logic)
最近更新时间:2011-08-03 翻译:徐艳EN
相关推荐
-
AI能源使用增加,技术工作负载限制IT
能源的可用性和成本正在成为技术使用的制约因素,随着企业AI应用程序增加计算需求,IT经理必须计划解决这一问题。 […]
-
减少关键技术债务的策略
现在的IT领导者、项目经理和软件开发领导者必须优先考虑预防技术债务。 技术债务会带来深远的负面影响。出于速度或 […]
-
生成式AI能耗增加,但尚不清楚投资回报率
在为生成式AI构建商业案例时,IT领导者需要考虑很多成本考虑因素,有些显而易见,有些则是隐藏成本。 其中最明显 […]
-
CrowdStrike事件揭露关于IT的残酷真相
美国立法者希望CrowdStrike首席执行官George Kurtz解释其软件更新如何导致数千次航班取消、医 […]