WEBクローリングって何?
WEBクローリングとはWEBサイト情報をAPIから取得し、複製・保存することです。WEBクローリングを使用している有名なWEBサービスとしてはマネーフォワード、Indeed、iQON等があります。
マネーフォワードは顧客の銀行講座情報を取得し全ての入出金を可視化、indeedは様々な企業ホームページから採用情報を取得して転職先を探している人に公開、iQONは100を超えるECサイトから商品情報を取得し公開しています。
WEBクローリング方法
自分がNode.jsばっかり使ってるのでNode.jsのクローリング方法について書きます。Node.jsはJavaScriptで書けて簡単に始められるメリットがあるのでおすすめです。
WEBクローリングの方法は大きく分けて2つ方法があります。GUIのないブラウザ(ヘッドレスブラウザ)を使用したクローリングとAPIを直接使用したクローリングです。この2つの方法についてメリット・デミリットを含めて以下で説明したいと思います。
ヘッドレスブラウザ-Spookyjs
ヘッドレスブラウザとはGUIのないブラウザのことです。このGUIのないブラウザをNode.jsから扱えるのがSpookyjsになります。Spookyjsは内部でCasperjsとPhantomjsを使用しています。この3つのライブラリの関係は以下です。
- Phantomjs: Spookyjsの大元の技術で、PhantomjsがGUIのないヘッドレスブラウザを実現している。
- Casperjs: Phantomjsをより使いやすくしているライブラリ。
- Spookyjs: CasperjsをNode.jsから使用できるようにしたライブラリ。
Spookyjsのメリット
- ログインが必要なサイトのクローリングに適している
- 非同期でデータを取得しているサイトでも非同期を意識せず簡単にクローリングできる
- 画面全体のスクリーンショットを簡単に取得できる
Spookyjsのデメリット
- レンダリングしているので処理が遅い
- 追加読み込み部分だけを取得することができないため無限スクロールがあるサイトのクローリングには適さない
- 処理スピードによるところが大きいがサイト内を網羅的にクローリングするのには適さない
- コードを書く時のスコープが独特なので慣れるのに時間がかかる。
- レンダリングまでの時間があるため処理待ちを挟むなどコードを書く時にコツを知らないと最初は難しい
APIから直接取得
そのままの意味ですね。自分でWEBサイトのAPIの構造を理解してHTMLまたはjson等を取得して解析することです。APIを叩くモジュールとしてsuperagentをよく使用します。superagentはシンプルで使いやすいのでおすすめです。
APIのメリット
- 軽量かつシンプルで扱いやすい
- HTMLのレンダリングを挟まないのでSpookyjsより早く処理できる
- 無限スクロールがあるサイトでも追加読み込み専用のAPIを叩いて追加部分のみのデータを取得できる
APIのデメリット
- ログインが必要なサイトでは使えない
まとめ
- ログインが必要なWEBサイトはSpookyjsを使うと楽。
- 大量のページをクローリングする場合はAPIを直接叩いてサイト情報を取得した方が早い。
クローリングを行う場合は上記メリットデメリットと照らし合わせてみて、どちらの方法で行うのがいいか一度考えてから取り組むといいと思います。
自分の場合はログインが必要ないサイトはAPIを叩くようにしています。ログインが必要なサイトだけ仕方なくSpookyjsを使っているといった感じですね。
是非参考にしてみてください。次回はSpookyjsを使ったクローリングの方法について書きます。
関連記事
Spookyjsの使い方を下記リンク先に書きました。
おすすめ書籍
JavaScriptとNode.jsを使ったクローラー作成について学びたい方におすすめの書籍です。全8章からなり、前半はクローラーとスクレイピング方法に関して解説されており、後半は取得したデータの形態素解析、機械学習や手書き文字の認識、解析結果のグラフ描画など、どのように分析するのか解説されています。一通りクローリングとスクレイピングを学びたい人におすすめの一冊です。
髙妻智一
最新記事 by 髙妻智一 (全て見る)
- Polkadot(Substrate)のアドレスとトランザクションについて - 2023-03-09
- 【無料公開】「Goで始めるBitcoin」3章 Bitcoinノードとの通信 技術書典8 - 2020-03-08
- エンジニアがゼロから技術ブログを書くための方法をまとめました - 2019-05-25
コメントを残す