Google Analytics に潜む思わぬリスク「リファラースパム」
「リファラースパム」というのは、参照元、つまり、Webサイトに訪れる直前の URL を偽装するという手口です。
なんでそんなことを?と思われるでしょう。そして次に、このコラムのタイトルを見た方は、「リファラースパムを放置すると参照元データとか全体のデータにゴミが増えて困るという話ですかね。」と思われることでしょう。
確かにそれも1つ問題としてありますが、もっと大きな、あなたに直接的に降りかかるリスクが潜んでいます。
『Webサイトに訪れる直前 URL を偽装できる』ということは、悪意のある URL にすることもできるわけです。ウィルスやマルウェアを送り込むサイトとか、フィッシングサイトとかなどにすることができます。
気づきましたか? Google Analytics の参照元サイトを見ている際、『何か見慣れないサイトから訪れている人が居るな。どんなサイトだろう?』と思ったら、すでに崖っぷちにあなたは立っているのです。
リンクを張ってくれて嬉しいな。どんなサイトか見てみようと思い、Google Analytics の画面からそのサイトを開いてしまったら、一巻の終わりです。
と、少々脅かしすぎかもしれませんが、完全に盲点を突いた攻撃試行ですので、油断してクリックしてしまわないように肝に銘じておいてください。
この「リファラースパム」を可能な限り防ぐには、Google Analytics の「管理>ビューの設定>ボットのフィルタリング」を利用します。
まず、下図のとおりビューの設定にある「ボットのフィルタリング」にチェックを入れましょう。
このチェックボックス、皆さんは検索エンジンのクローラーのアクセスを除外しておこうという程度の認識かもしれませんが、実は Google が把握しているスパムボットも除外してくれる設定(※)です。
これでだいぶ安心になりました。しかし、いたちごっこで新しいスパムボットは間隙を突いてあなたの Analytics データに足跡を残していくでしょう。
さらに強化したい方は、あまりお勧めしませんが、以下の様な方法が挙げられます。いずれも管理のビューブロックにある、「フィルタ」で対応します。
- スパムボットは送信する情報が雑なので、攻撃者が必要としている情報以外は設定されていないことが多いです。フィルタで「言語」「サービスプロバイダ」「OS」「ブラウザ」などが (not set) である(OR/AND条件はお好みで)ものを除外します。
注意点としては、満たすからスパムとは断定できないため、正常なデータも除外する可能性があります。 - 参照元ドメインが存在していて、参照URL が (not set) のものを除外する。
- フィルタで「ホスト名へのトラフィック」が Google Analytics を使っているドメイン以外を除外します。(つまり、このサイトであれば、 access-r.jp でないホスト名へのトラフィックを除外することになります。)
一部、archive.org など、アーカイブサイトのアクセスが除外されてしまったりします。また、ドメインが異なる形の CDN を利用されている場合も多少の考慮が必要です。 - ネット上に「リファラースパムリスト」など、親切な方がまとめているリストがありますので、これらをフィルタに除外する参照元ドメインとして登録します。ただし、そのリスト自体が信頼できるかどうかはなんとも言えませんし、リストを都度追加していかないといけないので、面倒すぎる気がします。
上記の対応は、いずれも、完璧にブロックできるわけではない、正常なデータも除外する可能性がある、あるいは面倒であるなど一長一短ですので、よく検討されてください。
知っておくだけでもだいぶ違う「リファラースパム」のお話でした。
※公式で明示されているわけではなく、著者の経験に基づく意見です。