Torisugariの日記: 衆議院質問答弁のHTML 3
とりあえず、以下のリンクをざっと眺めてから、そのソースを見てください。
国家戦略としての環境政策の展開に関する質問主意書
環境省要求予算のうち、事業仕分け対象となった事業に関する質問主意書
まあ、細かいことは抜きにして、これらは、かなりひどいです。2つを比べてみると、ほぼ同じパターンを踏襲しているので、(ワープロやPDFを一次入力として)なんらかの機械的な操作の上で、こういう結果になっているのでしょう。
ふと、思うのですが、たとえば、リスト系の要素をきちんと使おうと思えば、かかる変換アルゴリズムはいささか複雑になるでしょう。もっとも、そういう複雑なことをしないで済むように、最初からセマンティックxxxを意識した作りにしておけば何の問題もないのでしょうが、現実には、主従をどちらに決めるか、というのは難しい問題です。slashcodeが吐くHTMLも相当ひどいので、おそらく、この日記もソースは見られたものではないと思いますが……
HTMLは人間が入力する記法としては少し複雑すぎます。そして、世の中には(こういった用途では)ロクなHTMLエディタがありません。むしろ各種のwikiで使われているような中間表記を標準化すべきなのかもしれません。いろいろ考えさせられる事例ですが、いずれにせよ容易には解決しないと思います。特に改める差し迫った必要があるわけでもありませんし。強いて言えば、これを受け継ぐ後世の人々には気の毒に思いますけど。
ただ、HTML版を提供しているという点そのものは、もっと評価されてしかるべきでしょう。多くの行政機関がPDFでお茶を濁す中、衆議院はよくやっていると思います。表示が崩れているわけではありませんし、「これはプレーンテキストだ」と念じながら見れば、どうということはありません。
余談ですが、セマンティック性を言うのなら
foreach (ministry in cabinet)
@ministry@要求予算のうち、事業仕分け対象となった事業に関する質問主意書
つーか (スコア:0)
WordのHTML出力を使ってるだけでしょうね。
実は一太郎の方がもっと非道いんですけど。
Re:つーか (スコア:1)
これ、本当に MS-Word の出力ですかね? 本当に MS-Word なら、普通に ol とか li とか使いそうに思うのですが ... と思いながら meta とか font とかを読むと、確かにそっち系の匂いがしますね。
まあ、text/plain として人間が :-) 読む分には、かなり読みやすい HTML だと思いますよ。
# 人間以外がテキストを読むことは想定外なんだろ〜な〜
Re:つーか (スコア:1)
ひょっとすると、元の文書の(広義の)書式が悪いのかもしれません。
ただ、
といった使い方も考慮しなければいけませんから、揺れを防ぐために、番号指定 [w3.org]が必要です。でも、こんな細かいところまで面倒見てくれるような変換ソフトって、ちょっとないですよね。きちんと仕様書に盛り込んだ上で発注しないと。刑務所みたいに、人月が余ってそうなところでタグ打ちしてもらうのもいいかもしれませんが。