スクレイピングやクローリングを使ったサービスを提供している場合に、考慮しておくべき法律や事業リスクについてまとめて見ました。
スクレイピングとは、 Webコンテンツを自動的に収集・解析し、必要なコンテンツを取得するプログラム、またはその行為のことを指します。クローリングもほぼ同義と扱って問題ないと思います。スクレイピングやクローリングは非常に有用で、インターネットの世界に散らばった情報を集めて整えることで利用者の情報収集の手間や比較を助けることなどができます。
実際に事業展開している事例として、筆頭にあがるのはGoogleでしょう。
Googleの使命は、世界中の情報を整理し、世界中の人がアクセスできて使えるようにすることです
というGoogleのミッションが示すように、まさに世界中の情報をクローリングすることで集め、世界の人になくてはならないサービスを提供していますね。
求人領域のGoogleとも言われるindeedもクローリング・スクレイピングによって情報を集め、世界で月間2億人に利用されています。
他には、キュレーションサービスのさきがけであり、自分好みの記事を自動で見つけてくれるグノシーや、最近ホテル予約サービスなどでよく聞く「メタサーチサイト」を手掛ける企業もスクレイピングを使っていることがあります。
関連する法律は主に著作権です。さらに民法上と刑事上の責任が生じる場合があります。
平たく言ってしまうと、情報解析を目的にする限りはスクレイピングやクローリングでデータベースを作っても許される、とされています。ただし、コンテンツを複製して配布や譲渡したり、利用規約※でスクレイピング禁止とされているサイトをスクレイピングしたり、robot.txtなどのクローラー制限の設定を無視すると、違法行為とされたり訴訟されるリスクがあります。
※会員登録が不要で誰でも閲覧できる場合は問題にならない
スクレイピングと法律について弁護士の方が書いた記事が参考になりました。
法律に則ってクロール、スクレイピングを行うことで、Googleやindeedのような世界を変えるサービスを生み出すことができるかもしれません。
ただし、リスクは法律面だけではありません。すでにスクレイピングを行っている事業者は直面しているでしょうが、IPアドレスをブロックされることがもっとも大きなリスクの1つです。もし、所有しているIPアドレスすべてがブロックされた場合、スクレイピングを前提とした事業を継続できなくなります。
ブロックされる原因は、何らかの理由でサービスの利用者ではないと推定・認定されたからです。打ち手としては大きく2つです。
1つは予防策で、そもそも懸念を抱かれるようなアクセスをしないこと。
もう1つは予防としても対処療法としても使える方法ですが、IPアドレスを数多く持つことです。ただ、IPアドレスを保有するにはコストがかかりますし、再びブロックされたらせっかく保有したIPは無駄になります。そうした悩みを解消できるサービスがあります。
最近は所有ではなくシェアする時代だと言われていますが、車や自転車、宿泊場所だけではなく、IPアドレスも所有ではなくシェアリングする時代なのです。
IPアドレスを必要な分だけ、必要な地域から調達できるサービスが、スクレイピング事業の成長とリスクヘッジとして欠かせないものとなります。
それは、 3500万以上のIPアドレスを利用できる商用プロキシネットワークサービス、Bright Data【旧Luminati(ルミナティ)】です。運営企業はハイテク産業で注目されているイスラエルの企業です(余談ですが、ファイヤーウォールはイスラエルで発明されたんですね)。7日間無料で利用できるのでその効果を確認した上で申し込むことができます。ほとんどのプログラミング言語に対応したAPIがあるのもうれしい点です。
有料プランはいくつかありますが、スクレイピング事業社は、Residential IPが利用できる月500ドル~のプランがおすすめです。データセンターのIPと違い、居住者のIPアドレス帯域のため、ブロックされる可能性はほぼありません。
スクレイピングを事業の中で活用されていてIPブロックへの対策がまだの場合は、早急に対策をしましょう。問題になってからではサービス影響は避けられません。 Bright Data【旧Luminati(ルミナティ)】の公式サイトは日本語対応もしているのでさらに詳細な情報は公式サイトでも確認してみましょう。
それでは、Have a nice scraping life!