準識別子は、それ自体は一意の識別子ではないが、エンティティと十分に相関関係にあるため、他の準識別子と組み合わせて一意の識別子を作成することができる情報です。 [1]
このように、準識別子は組み合わせることで個人を特定できる情報となる可能性があります。このプロセスは再識別と呼ばれます。例えば、ラタニヤ・スウィーニーは、性別、生年月日、郵便番号のいずれも個人を一意に特定するものではないにもかかわらず、これら3つを組み合わせることで、米国の87%の個人を特定できることを示しました。[2]
この用語は1986年にトーレ・ダレニウスによって導入されました。[3]それ以来、準識別子は公開データに対する数々の攻撃の根拠となってきました。例えば、スウィーニーは、健康記録を公開情報にリンクさせ、一意に識別できる準識別子を用いて当時のマサチューセッツ州知事の病院記録を特定しました。 [4] [5]また、スウィーニー、アブ、ウィンは、公開されている有権者記録を用いてパーソナルゲノムプロジェクトの参加者を再識別しました。[6]さらに、アルヴィンド・ナラヤナンとヴィタリー・シュマティコフは、 Netflixが公開したデータの匿名性を解除するための統計的条件を示す準識別子について議論しました。[7]
モトワニ氏とイン氏は、準識別子を含む大量の政府および企業データの公開によってプライバシー侵害が発生する可能性があると警告している。[8]
参照
参考文献
- ^ 「統計用語集:準識別子」OECD、2005年11月10日。2013年11月7日時点のオリジナルよりアーカイブ。 2013年9月29日閲覧。
- ^ スウィーニー、ラタニヤ.単純な人口統計データは、しばしば個人を一意に識別する。カーネギーメロン大学、2000年。https://dataprivacylab.org/projects/identifiability/paper1.pdf
- ^ Dalenius, Tore. Finding a Needle In a Haystack or Identifying Anonymous Census Records . Journal of Official Statistics, Vol.2, No.3, 1986. pp. 329–336. http://www.jos.nu/Articles/abstract.asp?article=23329 2017年8月8日アーカイブ、Wayback Machine
- ^ アンダーソン、ネイト. 匿名化されたデータは実際には匿名化されていない。その理由はここにある。Ars Technica、2009年。https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/
- ^ バース=ジョーンズ、ダニエル・C.ウィリアム・ウェルド知事の医療情報の「再識別」:医療データ識別リスクとプライバシー保護に関する批判的再検証、過去と現在.『過去と現在』(2012年6月4日).
- ^ Sweeney、Latanya、Akua Abu、Julia Winn。「個人ゲノムプロジェクト参加者の氏名による識別」SSRN 2257732 (2013) で入手可能。
- ^ Narayanan, Arvind and Shmatikov, Vitaly. Robust De-anonymization of Large Sparse Datasets . The University of Texas at Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf 2021年1月26日アーカイブ、Wayback Machineより
- ^ Rajeev MotwaniとYing Xu (2008). 擬似識別子のマスキングと検出のための効率的なアルゴリズム(PDF) . SDM'08国際ワークショップ「実践的なプライバシー保護データマイニング」議事録.