Twitterをスクレイピングするスクリプトをgithubに公開しました!




GitHubに公開してます

まずGitHubはこちら。このリポジトリでは公式APIを使ったスクレイピングについても実装しています。今回のスクレイピングはtwitter.comに直接アクセスしてHTMLを取得し、そこから必要な情報を抽出する処理を実装しています。

インストール

Node.jsを使うので事前にNode.jsのv6以上をインストールしておいてください。clone後にnpm installして完了です。

$ git clone https://github.com/tomokazukozuma/Twitter-Crawler.git
$ npm install

実行の方法

ログを吐き出すためのディレクトリを作っておいてください。あとはnpmパッケージに記載しているスクリプトを実行する際に検索したいキーワードを引数で渡すだけです。

$ mkdir log
$ npm run twitter-br 'Node.js'

これだけでTwitterの検索ページのすべてのツイートタブと同じ情報を取得してcsvで吐いてくれれます。デフォルトでは過去30日分を取得するまでスクレイピングを続けます。

まとめ

Twitterから何かワードをしぼって情報を取得したいことは結構あると思うのでぜひ使ってみてください。今後も修正&機能追加はしていきたいと思うのでStarボタンを押していただけると嬉しいです。

おすすめ書籍

JavaScriptとNode.jsを使ったクローラー作成について学びたい方におすすめの書籍です。

全8章からなり、前半はクローラーとスクレイピング方法に関して解説されています。

後半は取得したデータの形態素解析、機械学習や手書き文字の認識、解析結果のグラフ描画など、どのように分析するのか解説されています。

一通りクローリングとスクレイピングを学びたい人におすすめの一冊です。

 

The following two tabs change content below.

髙妻智一

2013年CyberAgent新卒入社 スマホゲームを作る子会社に所属し、サーバーサイドのエンジニアを担当。2年目の終わりから新規子会社の立ち上げに参加し、サーバーサイドのエンジニアリーダーとしてサービースのリリースから運用までを担当。 2018年仮想通貨のスマホウォレットを提供するGinco Incにブロックチェーンエンジニアとして入社。






よく読まれている関連記事はこちら




コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です