えっと、APT41って米国のグループだっけ?
はじめに
9月ごろから、Twitter上で「APT41は中国のハッカー集団ではなく、アメリカが指揮するハッカー集団である」という偽情報が拡散されていました。
下図は、偽情報ツイートの例です。
今回は、CODE BLUEにてTeam T5もとりあげていた APT41に関する偽情報ツイートについて調査しました。(なお、APT41とは中国の国家支援型のサイバー犯罪集団とされているハッカー集団のことです。)
APT41に関する偽情報ツイートについて詳しい説明はマンディアントがレポートしています。
免責事項
内容・結果に関して手順としては間違いはないと考えておりますが、内容・結果を保証するものではありません
政治的な議論をしたい訳ではないので、そのように解釈できる文言があったとしても、それは政治的な議論ではありません。また、そのつもりもありません
今回の調査は我々の研究活動(基礎勉強)の一環ではありますが、何かを主張したい訳でもございません
調査概要
今回の調査の概要は、以下のとおりです。極力客観性のあるデータ分析になるように、また、時間的な制約もあるので、調査項目は絞っています。以降、いわゆる炎上は「バイラル」と呼びます。また、バイラルにおいて、議論のテーマとなる拡散因子を「ミーム」と呼びます。今回は、ハッシュタグ(1つもしくは複数)をミームとします。
- ハッシュタグ#APT41 を含むツイートを収集
- ハッシュタグ#APT41 を含むツイートに関わっていたアカウントにおけるボットの割合の調査
- ハッシュタグ#APT41 を含むツイートに関わっていたアカウントにおけるボットのアカウント作成時期とツイート時期を調査
データセット
- ハッシュタグ#APT41 を含むツイート
- 収集期間:2019–03–15 08:46:16~2022–10–11 18:12:34
- ツイート数:6770
- ツイートしたアカウント数:3355
調査結果①
1. ボットがどのくらい含まれているのか?
まず、ハッシュタグ#APT41 を含むツイート(APT41ミーム)をしていたアカウントにボットがどのくらいいるのかを調査しました。なお、9月公開のブログで調査した結果と比較を行いました。よって、収集したデータやミーム名、結果は9月のものを利用しています。
この調査では、当研究室で設計構築した機械学習による推定モデル(以降、ボット推定モデル)を使って、ボットか否かを推定しています。このボット推定モデルは、確率スコア[0,1]でボットらしさを算出するものとなっています。
本ブログの調査では、各ミームに関するバイラルに関わったアカウントにおいて、ボット関与の傾向を明確にするために、確率スコアが0.7以上の場合をボットアカウントとしています。(なお、通常、今回作成したボット推定モデルでは、確率スコアが、0.46以上をボットとしています。つまり、より確実性の高いもののみでの比較をしています。)
また、推定対象である収集したすべてのアカウントの数(以降、総アカウント数)と、ボットと推定されたアカウントの数の割合をボット率としています。
ボット率=(ボットと推定されたアカウント数)/(総アカウント数)
ボット率(表1)と、ボットスコアのヒストグラムのグラフ(図1)を以下に示します。
9月の調査にもあるように、台風ミームはコンテンツを自動投稿するボットを用いて天気予報やニュース速報を流している可能性があり、ボット率がすこし高くなるようです。また、au障害ミームはメディアでも大きく取り上げられたバイラルなので、一般の方が多くツイートしていたと考えられます。それらに比べて、APT41ミームでは政治ミームと同様にボット率が高い結果が出ています。
2. ボットと人間のアカウント作成時期とツイート時期の比較
次に、ボットと人間のアカウント作成時期と投稿時期とにどのような関係があるのか調査しました。
アカウント作成時期のグラフを示します(図2)。
APT41ミームに関与していたアカウントの作成時期を⾒てみると、ボットアカウントは、 2022 年 9 ⽉に多く作成されていることがわかります。これは、APT41ミームが話題になる2か月前あたりからボットの作成数が増加していることとなります。
⼈間のアカウントの作成時期は多少の増減はありますが、ほぼ⼀定でアカウントが作成されていますが、ボットは 2021 年までは⼀定であ ったが 2022 年からアカウント数が増加しています。
つぎに、ツイート時期のグラフを示します(図3)。
2022年9月にツイートでは他の月と比べてたくさんのボットがツイートしています。これは、アカウント作成時期のグラフ(図3)より7月ごろから作成されたアカウントによるツイートである可能性があると考えられます。
調査結果②
1. ツイート数と使用言語
ツイート数と使用言語を調査します。図4に、2022年1月から一か月ごとのツイート数を集計したグラフに示します。
図4によると、APT41ミームに関するツイートが2022年1月、3月、9月に特に多いことが目につきます。
つぎに、これらの月のツイートの使用言語と、言語ごとのツイート数の調査を行いました。
収集期間全体の言語の割合とそれぞれの月ごとにツイートされている言語の割合をまとめたグラフを以下に示します(図4~図7参照)。
図4の収集全期間(2019–03–15 08:46:16~2022–10–11 18:12:34)によれば、全期間を通すと英語でのツイートが多く観測され、英語に続いて中国語 でのツイートが多く観測されています。
つぎに、1月のAPT41ミームに関するツイートがどの言語かを確認します。
つぎに、3月のAPT41ミームに関するツイートがどの言語かを確認します。
図5、6により、2022年1月、2022年3月では英語でのツイートが多く行われていることがわかります。
しかしながら、2022年9月を見てみると、、、
なんと、、中国語でのツイートが突如して圧倒しています。
当初(1月、3月)、APT41に関するツイートのほとんどが英語でのツイートで行われていました。しかし、APT41が再度話題になった9月では、中国語でのツイートが多く行われています。
なぜでしょう?
2. 月ごとで言語ごとにどれくらいボットがふくまれているのか?
次に、1月、3月、9月でのAPT41に関するツイートで、ツイートを行ったアカウントには言語ごとにどれくらいボットがいるのか見てみました(表2)。
表2によると、9月のAPT41に関するツイートには、かなりボットがいるようです。
つぎに、1月に英語でツイートしているアカウントのボットスコアのヒストグラムのグラフをみてみます(図8)。
1月(英語)の場合、ボットスコアは0.00~0.02が最もアカウント数が多く、その後は徐々にアカウント数が減少しています。
つぎに、3月に英語でツイートしているアカウントのボットスコアのヒストグラムのグラフをみてみます(図9)。
3月(英語)の場合、ボットスコアは0.00~0.02が最もアカウント数が多く、その後は多少の増減はあるものの徐々にアカウント数が減少しています。
つぎに、9月のAPT41に関するツイートのボットスコアのヒストグラムをみてみます。
おぉ!?
9月(英語)の場合、ボットスコアは0.98~1.0で最もアカウント数が多く、0.9から徐々に増加しています。
おぉぉ!!
9月(中国語)の場合、ボットスコアは0.96~0.98の間で最もアカウント数が多く、ほとんどのアカウントがボットとみなせることがわかります。
総ツイート数と総アカウント数を調査したところ、9月の中国語のツイートは96個のアカウントによりツイートが行われていました。
1月と3月では多くのツイートが英語で行われておりボットはあまりいなかtたようです。
その一方、9月では、中国語でのツイートが増え、英語と中国語いずれのツイートでもボット率が大きく上がりました。中国語ではほとんどのアカウントがボットと見做されました。
まとめ
今回の調査で、以下のことが確認できました。
- (今回も)バイラルに関わっているアカウントは、直前に短期間で作成されていた
- APT41に関するツイートが増加した時期(2022年9月)に中国語によるツイートが増えた
- 中国語でのツイートは少数のアカウントでツイートが行われていた
もう、「APT41は中国のハッカー集団ではなく、アメリカが指揮するハッカー集団である」ことは間違いありません!
さて、くりかえしですが、サイトーちゃん、この研究の予算獲得の提案をしているのだが(同業に)何度もリジェクトされてしまい、大変面目がない話だけど、もう少し頑張るから、引き続きよろしくお願い致します。
2022ツイッターInfOps検証スペシャルチーム
齋藤孝道
田畑唯斗
林尚弘
家村芽弥
村澤広之