Google 先生に聞いても意外とわからなかったウェブスクレイピング実践編2
先ポストの続きです。基本的な実施例は以下をまず御覧ください。
そもそもスクレイピングって何?という方は以下を御覧ください。
今回はもう少し複雑なことを実施してみます。Nokogiri だけでなく、Ruby 用スクレイピングフレームワーク Anemone を使います。
やりたいこと4:自分が観た映画のリストの取得
正規表現書き途中で自信がないですが・・・
gist3f06830610a0511e5cef5f0d715d8085
実行します。
結果です。
やりたいこと5:スコアも一緒に取得したい
タイトルと一緒にスコアを一緒に取得してみたいと思います。
giste16ee92329a357810e56056eb266492e
実行します。
結果です。
こんな形で好きな要素を複数取ってくることもできました。
やりたいこと6:Clips で試してみる
正規表現の部分がおかしいのだと思いますが、うまくいっていないため、今度は観た映画ではなく、観たい映画としてクリップしているタイトルとその平均スコアを取ってきたいと思います。
場所はhttp://.../users/hogehoge/clips?=<数字>です。
gist91714cc86a0fbd56ddf4f96ff3b7f943
実行します。
結果抜粋です。
こちらはきちんと全部取り出せていました。
参照
クロールするときの動きは以下を参照しました。
Anemone - Information and Examples
パイプ以外にも便利な表現が沢山ありますね。