パスワードを忘れた? アカウント作成
13494312 journal
Firefox

route127の日記: LWPの威を借る狐 1

日記 by route127

ノルウェー映画を見に行かないまま正月休みが終わりそうな気がしてきた。
しかし邦題にヒトラーと入れておけば日本人受けすると思われるのは癪だな。
ところで日本で有名なノルウェー人というと誰なんだろ。
アーベルとかグリーグとかノルウェー出身らしいけどあまりピンとこない。
個人的にはギスレ・オース(Gisle Aas)がそれなのだが、あまり日本語で彼について書かれた記事がない。
読み方についてもギスレなのかジスレなのかわかなかったところ、技評の記事でギスレと出ててそれに倣うようになった。
彼の経歴についてはwikipediaに簡単なものがあるが、今に至るまでノルウェー語版のみである。
Gisle AasといえばLWP(libwww-perl)のみならずPerlの大立者のはずなのだが、あまり興味を持たれてはいないのだろうか。

しかし彼についても、彼の関わったLWPについてもだが、これらがあまり顧みられることが少なくなっているように思えて残念に思う。
SPAの流行がWebスクレイピングにおけるこういった歴史あるライブラリを古びたものにした側面はあるにしろ、生活の助けとなるべきスクレイピング(受信料を払うだとか)にヘッドレスブラウザやらテストツールをインストールするというのは牛刀割鶏ではないか。
僕個人がWWW::Mechanize::Firefoxを使うのはFirefox系ブラウザを贔屓にしているからではなくて、LWPの系統にあることの方が大きい。
雑に図にするとこんな感じ。

┏━WWW::Mechanize::Firefox  ━┓
┃┏━WWW::Mechanize ━━━┓┃
┃┃┏━LWP::UserAgent  ━┓┃┃
┃┃┃┏━LWP::Simple ━┓┃┃┃
┃┃┃┗━━━━━━━━┛┃┃┃
┃┃┗━━━━━━━━━━┛┃┃
┃┗━━━━━━━━━━━━┛┃
┗━━━━━━━━━━━━━━┛

だからWWW::Mechanize::FirefoxのコードをWWW::Mechanizeに手直しすることも(ブラウザでのJSの処理を肩代わりして書いてやったりすれば)可能で、その辺りが自分にとって割と重要なところである。
実際受信料納付のSPAにしてもメソッド名とパラメタはJSによる処理を経由するものの結局POSTで投げているだけなので、その処理をバイパスしてやるのは難しい仕事ではない。
そうやって厚化粧のWebをまずは捌いて、必要があれば徐々に枯れたライブラリに置き換える、表層のJSに惑わされない軽いスクリプトにしていく、という方針があるので徒に最新技術に飛びつくことはしないしその必要がない。
またFFの今後を心配する向きもあるが、他にもFF系ブラウザはあるし、そういったFF系ブラウザの血脈が絶えるのとWeb技術の流行り廃りのどちらが先に来るかというだけの話であるような気はする。
仮にSPAが廃れたり、FFが途絶えたりしても、他はさておきLWPにとっては捨て去るものは玉ねぎの皮一枚に過ぎない。

色々書いたが結局スクレイピングに使う手なんて好き好きなので各々気に入ったものを使えばいいのだし、PerlにもWWW::Mechanize::PhantomJSWWW::Seleniumといったモジュールはある。
ただ僕はスクレイピングは高尚なものではなく、万人の為のものだと思っているから手近なものを使うというだけで、最新技術にキャッチアップする能力がないのであろうという中傷はあるにせよ、その辺はスクレイピング観の違いだと思う。

typodupeerror

普通のやつらの下を行け -- バッドノウハウ専門家

読み込み中...