WindVoiceの日記: HTML::TagParserの問題
日記 by
WindVoice
いま作ろうと思っているものの第一フェーズ(基盤になる情報を用意する段階)がようやく出来上がるかなー と思ったところで、HTML::TagParserモジュールの問題に行き当たってしまいました。
このモジュールはHTML文書から探したい要素を見つけるという目的のものなのですが、divタグが入れ子になっているだけで中身のテキストが取り出せなくなる(二つ目のdivタグの前までしか取り出せない)という問題があり、作者氏はWeb::Scraperがあるので開発が止まり気味、とのコメント。
というわけで、もうほとんど出来上がって動作テスト段階だった第一フェーズは大きく手戻りして、Web::Scraperで書き直す羽目になっています。ただ、これも今ちょっと行き止まり気味。私の使い方が悪い可能性もあるけど、もしかしたらマルチバイト文字対応が不十分かも……? いや、経験上こういうときは私の使い方が悪い可能性が高いのでもうしばらくがんばります。
HTML::TagParserの問題 More ログイン