「個人を識別しうる情報」の神話と誤謬

河本孝之(Takayuki Kawamoto)

1st appeared: 2016-04-06 13:48:08.

昨日の翻訳記事では、「個人を識別しうる情報(PII: “personally identifiable information”)」が何であるかを、現行の技術や制度の枠内だけで理解することはできないという趣旨の論説をご紹介しました。その中で、ポール・オームさんの論文は大きな比重を占めていましたが、他にもラターニャ・スウィニーさんやアルヴィンド・ナラヤナンさんといった研究者の成果が紹介されていて、プライバシーやパーソナルデータに関心がある人は数多くの成果に目を通すべきだとされています。そこで、ここでは更にナラヤナンさんとシュマティコフさんによる論説(Arvind Narayanan and Vitaly Shmatikov, “Myths and Fallacies of ‘Personall Identifiable Information’,” Communications of the ACM, Vol.53, No.6 (June 2010), pp.24-26; 以下、“Narayanan-Shmatikov” と表記します)と、この論説を解説したナラヤナンさんのブログ記事を取り上げることとします。

Narayanan-Shmatikov によると、PII は現代の賢者の石(lapis philosoporum)だといいます。つまり PII は、医療情報のような慎重な扱いを要するデータを「脱識別化(“de-identified”)」するための触媒というわけです。ただし、賢者の石という比喩としては、データベースに PII を加えたり、他の情報を PII と組み合わせることで金(gold)のような何かを生むわけではないので、ここでは寧ろ匿名化の処理を賢者の石(つまりは迷信)として喩えた方がいいように思います。つまり、PII を含む取り扱いに慎重を要するデータベースに匿名化処理という賢者の石を使えば、それこそ金(money)になるデータに化けるというわけです(この記事は翻訳ではなく、他の方の論説を題材にした私自身の議論なので、こういう考察を組み込んでも許されるでしょう)。では、その PII とは何なのかというと、まず最初に「PII を定義するのは驚くほど難しい(PII is surprisingly difficult to define)」と率直に書かれています。或る説明では、PII は個人を証明する認証情報(credentials)とされ、幾つかの具体的な情報が列挙されているわけですが、もちろんこれは範囲が狭すぎますし、時代とともに情報の種類は増えるかもしれないので、そういう外延を固定した定義は不十分です。またもう一つの説明では、PII とは個人を識別する情報であるか、もしくは個人を識別するために使えると考える合理的な根拠がある情報だとされています。こちらは「どれとどれがそうなのか」を具体的に列挙しない、いわば内包的な定義となるわけですが、しかしこの定義では或る情報が個人を識別するために使えると判断するための「合理的な」根拠とは何なのかという基準がありません。

SNS や小売業者やサービスプロバイダが収集しているパーソナル情報は、「個人を特定しえない(“non-personally identifiable”)」形式で公表される場合があります。その場合に彼らは、「個人を特定しうる情報」というものは氏名や連絡先といった特定の属性情報の一揃いだと仮定しています。それらの情報を「脱識別化」しさえすれば、データと個人を結びつけるやり方は存在せず、データは安心して公表できるものに化けるというわけです。プライバシーを保護する自然な方法というものは、データとそれの利用方法にもとづいて、データがその方法で使われた場合にどのようなリスクがあるかと問うことです。しかし残念ながら、k-匿名化(k-anonymity)のような既存の技法はデータだけしか考慮していません。このため、別の(例えば有権者登録データベースなど)データベースと組み合わせると、実は個人を特定できてしまうリスクが残ります。ここで問題となるのは、こうした技法(そしてこれらの技法を使う人々)が、個人を識別する(“identifying”)情報と個人を識別しない(“non-identifying”)情報という、疑わしい区別に依存していることです。この区別は、最初に想定している攻撃に対しては意味をもつかもしれませんが、個人について公に入手できる情報が爆発的に増えていく中では、すぐに意味を失ってしまいます。

ここで、k-匿名化や、それから派生した l-匿名化という手法を考えてみます。これらの技法を使う場合、「準識別子(quasi-identifier)」と呼ばれるひとまとまりの属性データをあらかじめ決めておき、それを全ての個人について同じデータとなるようにします(「一般化(generalization)」と言います)。このような準識別子には、郵便番号、生年月日、性別あるいは他の人口統計で使われるような属性が含まれます。そして、それ以外の属性は個人を識別しないと想定されます(もちろん Narayanan-Shmatikov の文脈では、「準識別子」には「準」が付かない属性も含まれています)。しかし、このような処理を施しても、他のデータと組み合わせることによって個人を再び識別できてしまう可能性が残ってしまいます。なぜなら、k-匿名化では、他のどのような属性データと組み合わせても個人を識別しえないということまでは保証できず、せいぜい手持ちのデータの中で k 人以上には絞り込めないことを保証するだけだからです。

ポイントとしてまず押さえておくべきなのは、或る個人を他の全ての人から区別するような情報は、それが何の情報であろうと、その個人を匿名のデータから再識別するのに使えるということです。つまり、データにどういう意味があるかをあらかじめ決定しておくことはできないのです(“Re-identification algorithms are agnostic to the semantics of the data elements”)。そういう属性情報には、意味合いがどうであれ、時間や状況をまたいで個人について保持されるという特徴や、その個人を識別するに十分なだけ莫大な数で詳細な種類があるという特徴があります。個人を再識別するアルゴリズムに融通を利かせたり威力に訴えるならば、「個人を識別しうる」とか「準識別子」といった言葉が技術的に無意味であると分かります。つまり、どのような属性情報であろうと他の属性情報と組み合わせることによって個人を識別するのに使えるのです(“any attribute can be identifying in combination with others”)。そして、或るデータベースから個人を識別する作業は何度もやる必要がない(one-time effort)ので、ポール・オームさんが「累積効果がある(“accretive”)」と指摘するように、ひとたび再識別化が完了すると、そのデータを使って、他のデータから個人を割り出すために使えてしまうようになります。つまり、「脱識別化(匿名化)」などというアイデアに頼って、あらかじめ想定した範囲での PII に一定の処理を施せばいいというパラダイムを信じているだけでは、プライバシーの保護に役立たないということです。

Narayanan-Shmatikov の所見として、もちろんプライバシーを保護する技術には進展があって、たとえば差分プライバシー(differential privacy)は正しい方向への大きな一歩だと評価されています。そして、彼らによれば、「脱識別化」などという概念に訴えるのではなく、我々はプライバシーを保護する「計算処理(computation)」とは何なのかを形式的に定義しなくてはならないと言います。そこでは、攻撃者がどういうデータを自由に使えるかについて予断をもたないということが大切です。しかしながら、差分プライバシーの概念はデータの公表や共有あるいはプライバシーを保護する計算処理がどういうものなのかについて、普遍的な方法を示してはいません。しかし、それは仕方のないことでもあります。なぜなら、プライバシーの保護というタスクは、個々の状況に応じて方法を考えたり構築するべきものだからです。そして、Narayanan-Shmatikov が最後に強調しているポイントとして、プライバシーを保護するためのいかなる計算処理も、強力なアクセス管理、インフォームド・コンセントや契約といった技術以外の手法を伴っていなくてはならないとされています。

Narayanan-Shmatikov を一読してみた感想として、personally identifiable information という概念を特定の属性の一揃いとして固定したり、識別しうる情報とそうでない情報を区別すること自体が誤りであるという議論が示されているので、identifiable.info というドメインのサイトの運営者としては(笑)、もちろんこの議論からは大いに刺激を受けました。先の翻訳記事についても言えることですし、ダニエル・ソローヴさんらプライバシーの研究者の議論も同様ですが、PII やプライバシーというものを何か特定の属性として固定することに大きな欠点があるという主張は、これらの概念がヒトの生得的な権利でもなければ生物学的な特性でもない歴史的な構成物だという点からも支持できます。また、日本では「個人情報」をいまだにメールアドレスや氏名のことだと思い込んでいる人々が多く、それらをいわば黒く塗りつぶすだけで「利活用」できるかのようなキャンペーンを張っているメディアもあります。こうした乱暴な状況に流されないようにするには、もちろん理論的にあらゆるデータが個人を識別するのに使えるかもしれないので、他人が自分について登録したり書き表す情報については現実の人間関係としてもコントロールが難しい限界はありますが(他人から Twitter などで勝手に言及されないよう、就職もせず地域で孤立して生きるというのは非常に困難ですし、そういうこと自体が他人の噂を逆に呼び込んでしまいます)、やはりあるていど自分自身で情報の登録は慎重に管理できた方がよいでしょう。本来、個人情報の取得という機会に情報を取得・利用する事業者の側が掲示する「法令にもとづく公表事項」のような文書は、僕たちが事業者に何を伝えて何をさせることを認めるかという判断の基準になるような、分かりやすく正確で遺漏のない内容でなくてはなりません。Narayanan-Shmatikov の末尾でも言われていることですが、大多数の場面では、何もビッグデータの高度な解析だけがパーソナルデータの取り扱いではありませんから、このような技術以外の点でも注意したいポイントや提案するべきことがらについて、参考にしてもらえる成果を出せたらと思います。

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Google+ Twitter Facebook


著者の簡単なプロフィール

河本孝之(かわもと・たかゆき / Takayuki Kawamoto)

大阪市内のベンチャー企業で Chief Privacy Officer(個人情報保護管理者)として、情報セキュリティにかかわるマネジメントや社内システム、ネットワーク全般の運用を担当。1968年、東京都目黒区生まれ。神戸大学大学院博士課程中退(科学哲学専攻)。日本科学哲学会所属。Twitter アカウントは @identifiable_me