パスワードを忘れた? アカウント作成
612439 journal

tuneoの日記: 巡回ツール作成は順調に停滞中。

日記 by tuneo

HTTPクライアント部分はひとまず完成した。まだrobots.txtには対応していないし、エラー処理もろくにしていないが、とりあえずURLやUser-agent:, Referer:, If-modified-since:, If-none-match:あたりのヘッダを正しく処理できるようにはなった。めでたい。

あとはHTMLParserとURL取得メソッドの橋渡しと、ファイルへの保存を考えてやれば、曲りなりにもつかえるものが出来上がるはずなのだが、つまづいた。ISO-2022-JPでエンコードされたHTMLをHTMLParserに(Unicodeへの変換無しで)食わせると例外が発生することが判明。

HTMLのコーディングを判別できる良いモジュールは無いものかと思って探しているが、なかなか良いものが無い。アルゴリズムの解説は色々あるようだが、英語だったりして読むのが面倒くさい。

日本語だけなら出来合いのモジュールでなんとかなるんだけどなぁ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

読み込み中...