ロイヤルホース、ラグタイム、ソネ、ジャズオントップのスケジュールをスクレープ

本日は雨と言うこともより、かねてからやりたかったジャズライブのスケジュールをスクレープするスクリプトを書き始めた。とりあえずは慣れないRubyを駆使してそれぞれのコンテンツから日付と出演するミュージシャンを抜き出す処理を実装。

非常に面倒くさいのが、 (当然なから)ライブハウスによりHTMLのフォーマットが全く異なっているという点。しかも手動で更新していると思われるものも多かった。タグの記述間違いもあり、抜き出す処理は思ったよりも難航。

『Hpricot』というライブラリを使ったのだが、整理してスケジュールを流し込んでいないコンテンツが大半だったので、ほとんど役に立たず、結局地道に情報を抜き出すことにした。

関西にも沢山のライブハウスがあるので、網羅させていくのも大変。しかも、抜き出した情報をデータベースに登録したり、CalDav形式で出力したり、コンテンツにする作業があるのでまだまだ道のりはながい。。。