2017年02月16日15時22分 に初出の投稿

河本孝之Takayuki Kawamoto

Last modified: 2017-02-16 15:22:02

差分プライバシーとは何か? (定義 & 解釈編)

differential privacy は数理モデルを立てる上での「定義」なので、数理モデルの中で使われている処理だけをあれこれ論じても差分プライバシーの概念を批評したことにはならない。寧ろ、それを前提したうえでの議論をしているだけになってしまう。

かなり雑に言うと、差分プライバシーで使われる処理(統計データの集合に対して何らかの情報を要求するクエリを受けて結果を返す解析のしくみ)には、情報を提供する個人のデータが解析するべきデータの集合に加わっても加わらなくても、結果として出て来る解析データからは、どのようなデータが追加された(あるいは追加されなかった)かが推定不能になるような乱雑さが求められる。

どうして当人ひとりのデータが追加されたかされないかによらず、似たような結果が返ってくるべきなのか。例えば、単純に「あなたは大阪生まれですか?」という質問に Yes = 1 / No = 0 で答えたデータがあるとして、次のようなデータセットがあるとする。

S = { 1, 0, 0, 1, 1 }

ここで、各人の回答をそのまま使うと問題があるため、平均値だけを結果として返すような解析処理 M があるとする。当然、S に対するクエリの戻り値は ( 1 + 0 + 0 + 1 + 1 ) / 5 = 0.6 である。ここで、僕の回答(僕は東京生まれなので 0)を加えると、

S' = { 1, 0, 0, 1, 1, 0 }

となるから、戻り値は 0.5 に変わる。もし、攻撃者が僕以外の回答者を(回答の内容は知らなくても)全て個人として知っていたとすれば、解析すべきデータ集合が S から S' へ変わり、データ集合に対するクエリの戻り値が変わったことによって、「僕がそもそも回答したという事実」も攻撃者に分かってしまうし、「僕が "no" と回答した」ことも攻撃者に分かってしまう。これではプライバシーを保護していることにはならない。

ということで、僕が回答しようとしまいと、そしてどう回答しようとも、一定の範囲の乱雑さで同じような解析結果が戻せるなら、僕が回答したかどうか、そして何を回答したかという二つのポイントで「プライバシーを保護していることになるのだ」というのが、差分プライバシーの定義である(ここでも分かるように、どんな解析を使えば「良い」かという話は一切していない)。

「良い」と言えるための一つの基準は、上記の事例で言うと「平均を取る」という処理内容を秘匿することである。もう一つは、処理内容に乱雑さつまりノイズを加えて、攻撃者となりうるかもしれない相手に返す解析結果からは、どのような単独あるいは集団も他の情報と照合して特定し直せないようにすることである。ただ、前者(解析処理の内容を秘匿する)は困難である。クエリはたいていデータセットに対する処理を特定するものだからだ(でなければ、戻り値が自分の期待した処理にもとづく結果なのかどうか、問い合わせる方はどうやって信用すればいいのか?)。したがって、後者の基準だけに着目する。

ノイズが大きすぎると解析結果として使い物にならないのは明らかだ。なぜなら、一人ぶんのデータがあってもなくてもいい、二人ぶんのデータがあってもなくてもいい・・・として、結局は全員のデータがあってもなくてもいいという理想を追求すると、そもそも統計を取っても取らなくても殆ど同じ結果を返すという馬鹿げた処理になってしまうからだ。上記の S について最もトリヴィアルな事例を使えば、ノイズとして { ∞ } をデータセット S に追加すれば、僕らが現実に使うどれだけ大きいデータセットを使おうと、あるいは既存のデータセットから ∞ 以外のデータを全て抜き取っても、「平均をとる」という解析の結果は ∞ であるが、こんな解析に意味は無いだろう。

しかし、ノイズが小さいと、データひとつが追加されたことによる解析結果の違いに顕著な違いつまり差分が生じる(その「差分」を乱雑化するのが差分プライバシーだと言ってもよい)のは上記の簡単な事例で分かる。上記の事例ではノイズがないからだ。したがって、この乱雑さをどのていどに押さえたら解析結果が使い物になり、そして解析結果から個人を特定できないようになるかがポイントである。

しかし、中川さんの元で差分プライバシーを研究していた南賢太郎さんのスライドで示されているように、

差分プライバシーは, 「この人のデータが 𝑋 であるという仮説」に 統計学的な信頼を一定量以上与えられない という意味での保護にすぎない

http://www.slideshare.net/kentarominami39/ss-64088396

つまり回答が yes / no の場合は、そもそも「当てずっぽう」で回答内容が推定されてしまうというリスクを避けることはできない。

また、実はスライドの最後に書かれているように、ノイズをどのていどにすればプライバシーを保護しつつ有効な結果を出せるかというアルゴリズムについては、まだまだ検討が続いている。つまり、具体的に「この条件ではこれ」と言えるアルゴリズムが幾つか提案されたり脆弱性が指摘されたりするという応酬が続いているのが現状であって、差分プライバシーを使えば何か個人情報を保護しつつ有益な解析ができるなどと無条件に宣伝するようなゼネコンの「プライバシー保護技術」のソリューションは信用に値しないと思う。

Ann Cavoukian ‏@AnnCavoukian
Ann Cavoukian Retweeted Daniel Barth-Jones No, it's not practical. Check out Jane Bambauer's great article on differential privacy called: "Fool's Gold."

https://twitter.com/anncavoukian/status/681288663658049536

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Google+ Twitter Facebook