GitHubに公開してます
まずGitHubはこちら。このリポジトリでは公式APIを使ったスクレイピングについても実装しています。今回のスクレイピングはtwitter.comに直接アクセスしてHTMLを取得し、そこから必要な情報を抽出する処理を実装しています。
インストール
Node.jsを使うので事前にNode.jsのv6以上をインストールしておいてください。clone後にnpm installして完了です。
$ git clone https://github.com/tomokazukozuma/Twitter-Crawler.git $ npm install
実行の方法
ログを吐き出すためのディレクトリを作っておいてください。あとはnpmパッケージに記載しているスクリプトを実行する際に検索したいキーワードを引数で渡すだけです。
$ mkdir log $ npm run twitter-br 'Node.js'
これだけでTwitterの検索ページのすべてのツイートタブと同じ情報を取得してcsvで吐いてくれれます。デフォルトでは過去30日分を取得するまでスクレイピングを続けます。

まとめ
Twitterから何かワードをしぼって情報を取得したいことは結構あると思うのでぜひ使ってみてください。今後も修正&機能追加はしていきたいと思うのでStarボタンを押していただけると嬉しいです。
おすすめ書籍
JavaScriptとNode.jsを使ったクローラー作成について学びたい方におすすめの書籍です。
全8章からなり、前半はクローラーとスクレイピング方法に関して解説されています。
後半は取得したデータの形態素解析、機械学習や手書き文字の認識、解析結果のグラフ描画など、どのように分析するのか解説されています。
一通りクローリングとスクレイピングを学びたい人におすすめの一冊です。
髙妻智一
最新記事 by 髙妻智一 (全て見る)
- Polkadot(Substrate)のアドレスとトランザクションについて - 2023-03-09
- 【無料公開】「Goで始めるBitcoin」3章 Bitcoinノードとの通信 技術書典8 - 2020-03-08
- エンジニアがゼロから技術ブログを書くための方法をまとめました - 2019-05-25
コメントを残す