tuneoの日記: 巡回ツール作成は順調に停滞中。
日記 by
tuneo
HTTPクライアント部分はひとまず完成した。まだrobots.txtには対応していないし、エラー処理もろくにしていないが、とりあえずURLやUser-agent:, Referer:, If-modified-since:, If-none-match:あたりのヘッダを正しく処理できるようにはなった。めでたい。
あとはHTMLParserとURL取得メソッドの橋渡しと、ファイルへの保存を考えてやれば、曲りなりにもつかえるものが出来上がるはずなのだが、つまづいた。ISO-2022-JPでエンコードされたHTMLをHTMLParserに(Unicodeへの変換無しで)食わせると例外が発生することが判明。
HTMLのコーディングを判別できる良いモジュールは無いものかと思って探しているが、なかなか良いものが無い。アルゴリズムの解説は色々あるようだが、英語だったりして読むのが面倒くさい。
日本語だけなら出来合いのモジュールでなんとかなるんだけどなぁ。
巡回ツール作成は順調に停滞中。 More ログイン