Twitterをスクレイピングするスクリプトをgithubに公開しました！

GitHubに公開してます

まずGitHubはこちら。このリポジトリでは公式APIを使ったスクレイピングについても実装しています。今回のスクレイピングはtwitter.comに直接アクセスしてHTMLを取得し、そこから必要な情報を抽出する処理を実装しています。

インストール

Node.jsを使うので事前にNode.jsのv6以上をインストールしておいてください。clone後にnpm installして完了です。

$ git clone https://github.com/tomokazukozuma/Twitter-Crawler.git
$ npm install

実行の方法

ログを吐き出すためのディレクトリを作っておいてください。あとはnpmパッケージに記載しているスクリプトを実行する際に検索したいキーワードを引数で渡すだけです。

$ mkdir log
$ npm run twitter-br 'Node.js'

これだけでTwitterの検索ページのすべてのツイートタブと同じ情報を取得してcsvで吐いてくれれます。デフォルトでは過去30日分を取得するまでスクレイピングを続けます。

まとめ

Twitterから何かワードをしぼって情報を取得したいことは結構あると思うのでぜひ使ってみてください。今後も修正＆機能追加はしていきたいと思うのでStarボタンを押していただけると嬉しいです。

おすすめ書籍

JavaScriptとNode.jsを使ったクローラー作成について学びたい方におすすめの書籍です。

全8章からなり、前半はクローラーとスクレイピング方法に関して解説されています。

後半は取得したデータの形態素解析、機械学習や手書き文字の認識、解析結果のグラフ描画など、どのように分析するのか解説されています。

一通りクローリングとスクレイピングを学びたい人におすすめの一冊です。

JS＋Node．jsによるWebクローラー／ネットエージェント「開発テクニック」

posted with ヨメレバ

クジラ飛行机ソシム 2015年09月

Amazon

Kindle

楽天ブックス

この記事を書いた人
最新の記事

髙妻智一

2013年CyberAgent新卒入社スマホゲームを作る子会社に所属し、サーバーサイドのエンジニアを担当。２年目の終わりから新規子会社の立ち上げに参加し、サーバーサイドのエンジニアリーダーとしてサービースのリリースから運用までを担当。 2018年仮想通貨のスマホウォレットを提供するGinco Incにブロックチェーンエンジニアとして入社。

Twitterをスクレイピングするスクリプトをgithubに公開しました！

GitHubに公開してます

インストール

実行の方法

まとめ

おすすめ書籍

髙妻智一

最新記事 by 髙妻智一 (全て見る)

よく読まれている関連記事はこちら

コメントを残すコメントをキャンセル

プロフィール

アーカイブ

カテゴリー

GitHubに公開してます

インストール

実行の方法

まとめ

おすすめ書籍

髙妻智一

最新記事 by 髙妻智一 (全て見る)

よく読まれている関連記事はこちら

コメントを残す コメントをキャンセル

RECOMMENDこちらの記事も人気です。

EC2にNode.jsとGitをインストールする最小手順

Socket.IOでリアルタイム通信を行うOSSを作りました

Node.js Sequelizeでマイグレーションを行う手順

Node.js - babelでES6を導入する最短手順

Node.jsでjsonとcsvを相互変換する方法

for文、forEach文のループ処理でasync/await、Prom…

Twitterフォロワーのツイートを取得するOSSを作りました

暗号化に使うbcryptの概要とNode.jsで扱う方法

プロフィール

アーカイブ

カテゴリー

コメントを残すコメントをキャンセル