パスワードを忘れた? アカウント作成
432638 journal

asatakuの日記: khtml auto-detect encoding patch

日記 by asataku

3.0beta2リリースを機にパッチの見直し。
幸いにも自動認識に時々失敗するページを見つけたので、そこをテスト対象として。
まずは自動認識部に与えられるコードのチェック。
やはり、前半のASCIIだけの部分しか与えられないことがある。
従来のパッチでは認識に失敗したらSJISにしてあったので、気づきにくかっただけか。
予想が当たったら、後は認識場所の確認。
旧パッチでは (!hasEncoding && isBody) なif文の中で認識を行なっていた。
ヘッダーに日本語が出てこないページも少なくないし、場所を変更。
if文の外に出しておいた。

手持ちに認識に失敗するページが少ないので、2,3のページでしか確認してないが、
とりあえず、認識の失敗は減ったようだ。

認識ルーチンは古いやつのままでもいいかもしれないな。
そのあたりはどうしよう…。

パッチはこちら。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

読み込み中...