Webマーケに役立つツールやノウハウ、プログラミングのちょっとしたTipsなどを記録したノートです。

Google検索結果のWebスクレイピングでブロックされた時の解決方法

競合調査や自社の順位調査などでGoogleの検索結果をクロール・スクレイピングすることがあるかもしれません。少しなら特定IPからでもスクレイピングできますが、一定量を超えてアクセスするとGoogleから一定期間ブロックされ検索結果を取得できなくなります。

そうした場合の解決策をお伝えします。

プロキシサービス「Bright Data」でブロック回避

bright dataについての詳しい説明は別記事を参照ください。

bright dataは有料のプロキシサービスで、スクレイピングなどでたくさんのIPアドレスを使いたいときに重宝するサービスです。しかも安価!手慣れている人はAWSなどのクラウドサービスを使ってIPを複数使い分けるなんてしているかもしれませんが、結構手間がかかったりします。bright dataはそうした手間なく目的を達するプロキシサービスを提供してくれています。

いろんなメニューがあるのですが、検索結果に特化したプロキシサービスがあります。


bright dataのプロキシメニューのうち「検索エンジン向け」の概要・料金

「SERP API」を使うと、大量に検索結果のデータを取得したいときも問題なく処理することができます。実際管理人も試してみましたが、$15/GBと同じ料金の「ウェブアンブロッカー」では大量に検索結果を取得すると失敗することが少なくないんですが、「SERP API」では失敗なしで予定した件数を処理できました。

プロキシ設定も非常に簡単で、例えばCurlであればプロキシ設定を加えるだけなので既存のプログラムがそのまま使える点もありがたいです。

短時間で大量に検索結果をスクレイピングしたい時にはこれ一択です。アカウント開設からサービス利用まで少し時間がかかる場合もあるので、使うケースがありそうな場合は早めに使える状態にすることをおすすめします。

アカウント開設はbrightdata公式サイトからどうぞ。