ブラウザフィンガープリンティングを使ってクロスデバイストラッキングをやってみた!
クロスデバイストラッキングとは?
クロスデバイストラッキングとは、1人の利用者が使用している複数のデバイスのアクセスをサーバ側で紐付けて追跡する技術のことをいいます。
たとえば、モバイル記事でスポーツカーをみたさいと〜ちゃんが、パソコンを起動してネットでポチッと購入な〜んてことがあった場合、クロスデバイストラッキングを利用することによって、「当該モバイル記事が切っ掛けとなり、スポーツカーを購入するに至った人」を追跡することが可能となる訳です(図1参照)。
ここで一点、注意なのですが、スポーツカーを購入したのは「さいと〜ちゃんであること(誰)」がわかる訳ではありません。単に、「当該モバイル記事が切っ掛けとなり、スポーツカーを購入するに至った人」を特定できているに過ぎないことにご注意くださいね。
クロスデバイストラッキングの種類
さて、クロスデバイストラッキングには、以下に示す2つのアプローチがあることが知られています。
- 決定論的(クロスデバイス)トラッキング
- 確率論的(クロスデバイス)トラッキング
決定論的トラッキングとは、クレデンシャル情報やデバイス識別情報によって、複数のデバイスを紐付ける手法です。たとえば、スマフォで映画を観ていて、休憩後、続きをテレビで続きを観ることができるなどでお馴染みかもしれません。利用する情報として、利用者がアプリに提供する電子メールアドレス、電話番号、SNSなどにログインする際に提示するIDを用います。そのほかに過去、MACアドレスなどのデバイス識別子を用いることもありましたが、現在は、モバイルアプリがデバイス識別子を利用することは実質できないので、デバイス識別子以外での手法となります。決定論的トラッキングの精度はほぼ100%と高いのですが、その仕組み上、一つのサービス内でのトラッキングとなるので、スケールアップが難しいのが課題です。
確率論的トラッキングとは、推定モデルを用いて、複数のデバイスを紐付ける手法です。ここでの推定モデルには、以下に示すような経験則を組み合わせて行うものや、機械学習を用いるものなど多種存在します。たとえば、同じIPアドレスを使う違うデバイスは、ある家庭内の1つのWi-Fiルータを経由している可能性があるという経験則などにより、デバイス間を紐付けてグラフを作成することで、デバイス間の紐付けを実現します。
使われているの?
さて、クロスデバイストラッキングはどれくらい使われているのでしょうか?
日本ではあまり知られておりませんが、米国ではかなり以前よりクロスデバイストラッキングは実践活用されております。ただ、その米国においてですら、アカデミアにおける研究よりビジネスの世界での実践が先行しております。
2017年に発表された古い調査ですが、Brookmanら[1]が100のWebサイトを調査したところ、以下のようなことが判明したそうです。
- クロスデバイストラッキングを実施している事業者が、調査対象100のうちの87存在した
- クロスデバイストラッキングに関与するサードパーティが861あった
- 調査対象100ののうち96が利用者にユーザ名または電子メールアドレスをサイトに提供させており、そのうちの一部は、サードパーティとの共有のためと推定される
さらに、調査対象100のうち16のサイトで、サードパーティとのユーザ名または電子メール(生またはハッシュ)を共有していたことが判明したそうです。
米国では、2017年に調べた段階で、クロスデバイストラッキングが既に普及していたということです。
ブラウザフィンガープリンティングを使ってクロスデバイストラッキングをやってみた!
さて、今回、我々の研究チームでは、確率論的トラッキングの一つであるブラウザフィンガープリンティングを使ってクロスデバイストラッキングを試行してみました。
どこぞの学術カンファレンスとかに出しても「新しさはない」とかしょっぱいことを言われる可能性もあるのですが、過去の論文[2]での実験と比べると大規模な実験となっております。
以下が、今回の試行で利用したデータサンプルです。
- モバイル端末によるアクセス数: 621,281
- PCによるアクセス数: 996,011
- 期間: 28日間
このデータサンプルを用いて、我々の研究チームの過去のナレッジを踏まえて、図2のように機械学習モデルを用いた推定を行います。
さて、結果のほどは如何に。。。
表1は、モバイルとPCからのアクセスにおけるクロスデバイストラッキングした際の精度の値です。
Recallがやや低めですが、概ね、高精度で実現できていることがわかります。これは、過去の研究成果[2]と比較しても遜色ないもので、妥当な実験結果と言えます。
今回の推定モデルは、Recallが低いので、推定した際、偽陽性(FP)が出やすいモデルになっているいえます。これは、(この後の応用のために)なるべく偽陰性(FN)を下げるべくチューニング(F_{0.5}を最大化)した結果です。もちろん、Recallも他と同じくらいの値になるのが理想です。
まとめ
今回、我々の研究チームでは、機械学習を活用したブラウザフィンガープリンティングを適用して、大規模なデータサンプルにおけるクロスデバイストラッキングを試行してみました。
そして、今回の実験の結論として、ブラウザフィンガープリンティングは、クロスデバイストラッキングにおいても、大変有効であると言えそうです。
クロスデバイストラッキングは、利用者は一人にしても、デバイスを跨いでのトラッキングなので、にわかに信じ難い技術です。その技術が、(ブラウザフィンガープリンティングを使わずとも)2017年には既に実践されていたことは驚きです。
さて、ブラウザフィンガープリンティングに対して、ネガティブなご意見も頂戴するのですが、我々は、ブラウザフィンガープリンティング技術を用いて、社会にとっての恩恵を提供すべく研究しております。
ブラウザフィンガープリンティング技術を嫌わないでくださいね。
2021/01/22
宣伝
- 情報セキュリティ研究室ではメンバーを募集しています
- 企業様からの委託研究・協業を募集しております
>> saito(a)saitolab.org までお気軽にご連絡ください <<
[1]Brookman, J., Rouge, P., Alva, A.andYeung, C.Cross-device tracking: Measurement and disclosures, Proceedings on Privacy Enhancing Technologies, 2017, 2 (2017), 133–148.
[2] Zimmeck, S., Li, J. S., Kim, H., Bellovin, S. M. andJebara, T. A privacy analysis of cross-device track-ing, 26th USENIX Security Symposium (USENIXSecurity 2017) (2017).