顔認識、差分プライバシー、そして Apple の最新版 OS のトレードオフ

ジェニー・ゲブハート(Gennie Gebhart), スターチー・グラント(David “Starchy” Grant), エリカ・ポートノイ(Erica Portnoy)
(翻訳: 河本孝之 / Takayuki Kawamoto

Original document was appeared as “Facial Recognition, Differential Privacy, and Trade-Offs in Apple's Latest OS Releases” on 2016-09-27 at Electronic Frontier Foundation.
1st appeared at identifiable.info: 2016-10-03 17:30:14.
This usage of original document should follow the terms of Attribution 3.0 United States (CC BY 3.0), and this translation is also redistributed under the same license.

多くのユーザは、友達の写真にタグを付けたり買い物の傾向を記録して、クラウドベースの機械学習とデータ収集に依存している。これらは有用で便利だが、ユーザのプライバシーに大惨事をもたらしうる。最新の携帯電話デスクトップ用 OS で採用された新しい機械学習の仕組みによって、Apple はそうした便利なサービスを提供するとともに、プライバシーにもっと関わる利用者データの収集方法を模索している。それらの二つの特色、つまりデバイスに組み込まれた顔認識機能と差分プライバシーは、プライバシーという観点から導入されたものだ。そうした特色を導入することに我々が賞賛を送るのはいいとしても、Apple がそうした特色を携帯電話や OS に実装するしくみや方法が分からないのでは、それらにどのていどの効果があるのかを知ることは難しい。

顔認識と機械学習

そこで、まず「写真」アプリ(Photos)を使って、新しい目的をもって顔認識という特色を試してみよう。「写真」のようなアプリが写真に写った人の顔を認識するために必要な処理を行っている機械学習は、通常はクラウドの環境で動作しており、人を識別するのに使えるデータをセキュリティ上の脅威に晒している。そこで、Apple はこういう産業規模での流行に逆らって、或るシステムを開発することを選んだ。そのシステムはあなたの携帯電話やタブレットあるいはラップトップの中だけで裏方として動作し、あなたはクラウドへ写真をアップロードしなくてもいいようになっている。こうした機器の中でデータを維持するのは ― Apple のサーバや他のサードパーティのサーバへ送信するのではなく ― ユーザのプライバシーやセキュリティにとって、おおむね良いことだ。

クラウドではなく機器の中で顔認識情報を扱うような機械学習モデルを選ぶということには、幾らかのトレードオフがある。もしこの方法を実装した場合、その機器は顔認識の機械学習モデルを動作させるために、機器のスピードや処理性能、あるいはユーザがもつ大量のデータへ簡単にアクセスするという性能を損なう。他方、ユーザは自分たち自身のプライバシーや情報をコントロールできるという大きな利益を得る。クラウドではなく機器の中でこうしたサービスを動作させることは、ユーザに高度なプライバシー、とりわけ彼ら自身のデータへ法的に強制されてアクセスするような場合に高度なプライバシーをもたらしてくれる。

クラウドは、巨大なスケールでデータを処理する場合にディフォールトの環境となっているが、Apple の選択はそれが必須ではないということを示している。上記で述べたトレードオフを念頭に置くと、ユーザのプライベートな写真と同じくらい扱いを慎重にするべきデータであり個人を識別することも可能なデータを取り扱うときには、プライバシーに多大の配慮をかけるべきであると Apple が正しく理解していることが分かる。機器の中で機械学習モデルを動かすということは、プライバシーを確約するものではない ― しかし少なくとも、全ての写真のコントロールや情報を手放すようにユーザへ要求することなく、技術的に洗練された顔認識の機能を提供する努力には価値がある。

差分プライバシー

Apple が公表した注目するべき二つめの特色は、差分プライバシーと呼ばれるモデルである。ひとくちに言って、差分プライバシーは大きなデータの集まりを作成する手順のことであり、そのデータの集まりは正確であると同時に可能な限り個人を匿名化している。ここで注意しておくべきなのは、Apple は差分プライバシーを使って大きなスケールのデータを処理する提案を最初に打ち出した企業ではないということだ。差分プライバシーのパイオニアは Microsoft の研究者だし、Google は匿名化したデータを収集するアルゴリズムを採用しているし、それから国勢調査局(Census Bureau)は差分プライバシーを使ったデータの集まりを公表した。それらを集約すると、テクノロジー産業において差分プライバシーを導入した対策が前向きに進められていることを示しているのだ。つまり、ユーザのデータを集める必要があるときには、その方法はおおむね適切に設計され、安全で、プライバシーに配慮していなくてはならないのである。

いまの事例では、Apple はユーザのデータを記録したデータベースに対するクエリが、全ての個人について必要以上の情報を知らせないことを保証するようにしようとしている。そうするための最善の方法は、プライベートな情報を全て格納するようなデータベースを持たないことである ― つまり、そこで差分プライバシーを使うのだ。差分プライバシーは、Apple のような企業へユーザについて可能な限りのことを教えつつ、個々のユーザが特別にもっていて彼らを識別可能にするような情報を教えない。差分プライバシーを適用したデータの集まりと解析処理は、例えば、或る製品を好むのがどういう人々なのかとか、或るニューズについて語っている集団の中で最も話題に登っているのは何なのかとか、あるいは或るアプリケーションが誤動作するのはどういう状況においてなのかという質問へ [個々のユーザを特定することなく] 回答できる。

これまでのところ、Apple は差分プライバシーをどうやって導入するかについて、具体的な内容を殆ど公表していない。公になっている限りでは、統計学とコンピュータ・サイエンスの手法、たとえばハッシュ化(データを一意でランダムな文字列へ変換すること)や、副次抽出(全データの一部分だけを使うこと)や、ノイズ付加(系統立ててランダムなデータを追加して、個人の情報を判別しにくくすること)に言及している。しかし、差分プライバシーを使った手順について更に情報が出てこない限り(過去の事例のようにホワイトペーパーで公表してもよいだろう)、データ収集と解析において Apple が実際に差分プライバシーをどのように応用するのかについては、憶測の域を出ないままである。

デバイス上で機械学習を使うことがトレードオフにあるのと同じく、差分プライバシーもトレードオフの関係にある。差分プライバシーはプライバシー予算(privacy budget)の概念に依存する。この概念を煎じ詰めて言えば、プライバシーを保護するという特徴を弱めることなく、あなたのデータを最大限に活用できるという考え方だ。これはデータの正確性と匿名性との微妙なバランスを意味している。或るプライバシー予算に対するパラメータや入力は、情報がどうやって収集されたかを記述しうるし、どうのように解析されたかも記述しうるし、それから何がプライバシーを保証するかも記述しうる。

このたびの発表で、Apple はユーザがタイプしたり絵文字を選んだ場合に差分プライバシーの手法を使って、検索したときに良い予測候補を提示できるようにしようとしている。これまでのところ、差分プライバシーは数多くの研究者から着目されてきてはいるが、実用的なアプリケーションとしての事例は少ないので、有名なテクノロジー企業が差分プライバシーを応用することは興味深いし重要なことだ ― たとえそのアプリケーションが潜在的に良い結果や悪い結果をもつとしても。

そういうアプリケーションがもつ良い結果というのは、Apple がプライバシーに配慮しつつユーザのデータを収集するような成果をはっきりとあげるということだ。更には、ユーザのデータに対して差分プライバシーの手法を使うことがオプトインで本人の承諾を得ているなら、我々は Apple が非常に好ましい一歩を踏み出す場面を共有することになる。

しかし、それは他方で Apple が従来よりも更にもっと多くのデータを収集するということにもなる。差分プライバシーは、まだ新しい手法であり、かなり実験的と言ってもいい探求の段階にあるものだ。そして Apple は膨大なユーザのデータに対して、試験運用を始めている。また、彼らの使っている方法がまだはっきりと分かっていないのだから、一般大衆と研究者コミュニティはどちらも Apple がどういう実装をしているのか検証する手立てがない ― つまり、他のどんな製品の出荷状況とも同じく、恐らくは幾つかの欠陥があるだろう。差分プライバシーは、理論的にはそうした欠陥に対して数学的な対策を持っているのだが、膨大な数のユーザとデータにかかわる出荷の詳細な結果は、そうした理屈の上での保証を吹き飛ばしてしまうかもしれない。Apple の開発者が参照する素材が教えるところでは、プライバシーに配慮するという要件を十分に認識することが望ましいと示されている ― しかし、データの集まりを見落としなく作り上げたり利用するためには、我々は自分たち自身で見落としがないかどうかを監視しなくてはならない。

顔認識と差分プライバシーの両方について、Apple はユーザのプライバシーに配慮してテクノロジーを実装することに価値があると言っている。しかし、プライバシーを強化するテクノロジーを本当に推し進めるためには、Apple はこれから実装しようとしているテクノロジーの詳細を更に公表して、他の技術者や研究者あるいは企業がそうした方法を学び、デバイス内部の機械学習や差分プライバシーを効果的に普及させられるようするべきである。

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Google+ Twitter Facebook


著者の簡単なプロフィール

河本孝之(かわもと・たかゆき / Takayuki Kawamoto)

大阪市内のベンチャー企業で Chief Privacy Officer(個人情報保護管理者)として、情報セキュリティにかかわるマネジメントや社内システム、ネットワーク全般の運用を担当。1968年、東京都目黒区生まれ。神戸大学大学院博士課程中退(科学哲学専攻)。日本科学哲学会所属。Twitter アカウントは @identifiable_me