WikipediaのAV女優一覧をスクレイピング Ruby編

Rubyの勉強も兼ねて2012年最も読まれたWikipedia記事の[AV女優一覧](http://ja.wikipedia.org/wiki/AV%E5%A5%B3%E5%84%AA%E4%B8%80%E8%A6%A7 "AV女優一覧")をスクレイピングしてみました。

[Wikipedia日本語版で2012年に最も読まれた記事は「AV女優一覧」、英語版は「Facebook」 - GIGAZINE](http://gigazine.net/news/20121228-most-view-wikipedia-2012/ "Wikipedia日本語版で2012年に最も読まれた記事は「AV女優一覧」、英語版は「Facebook」 - GIGAZINE")

スクレイピングの流れ

  • NokogiriのCSSセレクタでhtmlを解析する
  • AV女優一覧 - Wikipediaの「あ行」から「ら・わ行」のリンクを取得
  • 「あ行」ページから順に解析
  • 女優のフルネーム・よみがな・名字よみ・名前よみを取得 正規表現の後方参照を使用

umeyuki/ruby-wikipedia-pornstars

動画

+++