maiaの日記: 国民へ発信する重要情報のファイル形式 81
日記 by
maia
地方自治情報センターが国民へ発信する重要情報のファイル形式について、全国地方公共団体に注意喚起を行っている。簡潔に引用してみると、
- PDFだけではなく、HTML形式(テキスト)のファイルも公開する。
- 紙資料のスキャンファイルはPDFではなく、JPEG形式とする。
- 表形式データのファイルは、Excel形式ではなく、CSV形式とする。
基本的には大変良い趣旨とは思うが、あまりにも基本的すぎるとは思う(必要な事だが)。CSVの説明はともかく、ワード・エクセル文書をHTML形式で保存する方法として、「ファイル」→「名前を付けて保存」→ファイルの種類にて『Webページ(*.htm,*html)』で保存とあるのが、ちょっと心配である。文章は、h1とpだけで構成してくれてもありがたいかも。
携帯用サイトの必要性 (スコア:4, 興味深い)
今回身内というか実家が被災した者です。
そこでここ数週間のやりとりで身にしみたのが、公共・自治体系のサイトで特に災害に関するサイトの携帯用ページが少ないことでした。
避難している方々はうちの身内含め基本的に携帯電話のみ。スマホがブームとはいえやはりガラケーのシェアは凄いものがあります。充電環境を考えるとノートPCがあったところでどこまで使えるのか微妙な状況です。
そのような中、非常にありがたいことに都道府県や自治体が公営住宅等をかき集め被災者に無償や手間賃程度で優先的に貸すという話があちらこちらから聞こえてきています。
が、肝心の応募方法や物件情報がことごとくpdfファイルもしくはPCで見ることを前提としたCMSで構築されたWebサイト上に掲載されています。
身内から頼まれ様々な住宅提供の情報を伝えていたのですが、詳細が掲載されているページのガラケーでの閲覧は厳しいため結局pdfを印刷し避難先の公民館宛でFAXを送信するというなんだかなーな事態に。
もっともPC向けサイトが見れるようになるまで携帯が高性能化したのはここ数年ですし、阪神淡路大震災のときはこんな環境が無かったため体勢が整っていないのは仕方ないことなのかもしれません。ただ、今回の件を教訓にして、被災者が閲覧しそうなページは携帯向けの専用ページも作れる準備をして頂ければと思うのです。
WEBサイトの作り方だけが悪いのでしょうか? (スコア:2, おもしろおかしい)
そもそもネットが主流だという前提で作らず、裡にこもってイジイジし、
i-modeみたいに自分らに都合の良い狭い世界を中心にしてサービスを作り上げてきましたし。
そして見事に世界から後れを取った。
しかも彼らは、ケータイの本質や役割というものさえ見失ってしまってます。
だからこう言った未曾有の事態で、ほとんど使い物にならないような移動式端末を生み出したんじゃないかと。
PDFを読めない端末が多いのもそうです。
前も書きましたがLTEとかよりも、確実に大勢が繋がる技術や施設建設の方が先だったんじゃないでしょうか。
それこそがケータイの重要な存在理由ではないのかと。
それに、通常の使用面でもちっともユーザーのニーズを取り入れずに、ゴテゴテと無駄な機能をてんこ盛り。
おかげで操作性は複雑で使いづらく、しかも重い。
まるで大手国内メーカーのPCと同じです。
NECが国産PCに固執して廃れていったことをまるで学んでいません。
ケータイに求められている社会的役割も、それにユーザーが求めるものすら見えていない。
そのくせ売れないときは、「若者の**離れ」「市場の縮小」とかの言い訳ばかり。
そうやって物事の本質を見ようとせず、表面的なことばかりに執着して誤魔化した結果が、
今回の使えないガラケー問題に繋がってるんだと思います。
もっともそういった中身軽視主義は、JPOPや日本製ドラマなどにも多く見られますし、
他の日本の多くの企業にも言えることかもしれませんけど。
橋の下からこんにちは
Re:携帯用サイトの必要性 (スコア:1, すばらしい洞察)
携帯用サイトが必要なのではなくて、
シンプルなHTMLで例えばCSSが対応しなくても
取り敢えず意味が通るように読めるWebページを書けば、
それで十分な気がします。
PDFは論外としてもCMSも変なHTMLを吐き出すのが問題なので、
CMSを使うこと自体は問題ないのではないかと。
PDFは非推奨と読めたが (スコア:3, 参考になる)
呼び掛けでは、PDFを否定してはいないが、HTMLでも必ず提供せよ、というのが第一の趣旨。第二は文書のスキャンならPDFではなくJPEGにしろとある。
文字コードは? (スコア:2, すばらしい洞察)
どうせだから文字コードも今から適切に推奨しておいた方が良さそうな気はする。
混在なんかしない方が良いに決まってる。
テキストファイルのサポートそのものは大賛成。
HTML: Shift_JIS, CSV: UTF-8 (スコア:2, 参考になる)
HTMLはShift_JIS, CSVなどのデータはUTF-8でいいと思いますね。
HTMLを携帯端末で閲覧する場合、一部(もしかしたら大部分の)端末ではShift_JIS外の漢字は表示されません。
その代わり画像などを使用して外字にすることができます。
その上、漢字が多い場合Shift_JISのほうが数十%軽くなります。
一方CSVのようなデータは直接閲覧するというより、この [nexhawks.net]ような検索システムで使用するといった用途で使用するので、可能な限り本来の形を保っていたほうが良いので、UTF-8のようなUnicode系が良いでしょう。
元のデータが壊れていては大迷惑です。
ちなみにExcel 2008 for MacはCSVで書き出すとShift_JISになり(変更不可)、Shift_JIS外の漢字はアンダーラインになるようです。
これは自動更新にexcel2csvを使用し始めたときに気付いたことです。
Re:HTML: Shift_JIS, CSV: UTF-8 (スコア:1)
それもガラケー。
携帯端末は、まさしくガラケーを意図しました。
Re:文字コードは? (スコア:1)
これをUTF-8に変換し直すのが面倒でねぇ。
最近のバージョン(2010とか)では変わったんかな?
まあ、わざわざ文字コードを指定するとかしても、
素人さんには文字コードの変換は無理じゃないですかね。
Re: (スコア:0)
UTF-8はコピペできないから勘弁してくれ。
より多くのクライアントで見られることを考えるなら、Shift_Jisかiso2022-jpでしょう。
Re:文字コードは? (スコア:1)
iso-2022-jpのCSVファイルとかおぞましい…
Re: (スコア:0)
え?何でコピペできないの?
より多くのクライアントといっても・・・UTF-8ベースにしてて
変換ツールを用意しておく方がいいような・・・・
WindowsXPでもUTF-8って扱えましたよね?
Re: (スコア:0)
より多くのクライアントで見ることを考えたらUTF-8か何かじゃないの?
とりあえずUTF-8が扱えないクライアントを教えてくれ。
Re:文字コードは? (スコア:4, おもしろおかしい)
うちの上司
Re:文字コードは? (スコア:2, おもしろおかしい)
「最近、ゆとり新人に関する取材が多い。
今日も「メールで済ませる新人についてどう思いますか?」と聞かれたので
「ワードを一々打ち出してFAXするお宅のベテラン編集者の方が問題だ」
と言ったら若手が爆笑してた。」
https://twitter.com/#!/joshigeyuki/status/12146979810 [twitter.com]
東電の広報なんかも、この『べてらん』と同レベルなんだろうな。
Re:文字コードは? (スコア:2, 興味深い)
Excelの場合、UTF-8のCSVで保存ができないのが最大のネックです。
テキストファイルウィザードで読み込みはできても、CSV形式で保存したら SHIFT_JIS になってしまいます。
#念のため確認しましたが、Excel2010でも、BOM付UTF-8のCSVはダブルクリックでも開けますが、そこで上書き保存するとShift_JISのCSVになりましたorz
仕方ないので、私はUTF-8が必要な表データは、CSVはやめて、TSVにしてクリップボード経由でやりとりしています。
Excelからコピーすると、クリップボードにはUTF-8のタブ区切りテキストとして入りますし、
逆にUTF-8のタブ区切りテキストをExcelにペーストすると、ちゃんとセルに分けて貼り付けられます。
Re:文字コードは? (スコア:1)
タブ区切りでいいのなら、クリップボードを経由しないでも保存形式を「UNICODEテキスト」にして保存すればよいのでは。
Re:文字コードは? (スコア:1)
それは UTF-8 ではなく UTF-16 だったりします。(Excel 2010 で確認)
メモ帳で普通に開けるのは確かなのですが、UTF-8 で欲しいという需要は満たせないのではないでしょうか。
再利用可能性と検証可能性 (スコア:2, すばらしい洞察)
CSV 形式の再利用可能性について触れているのは良いことだと思いますが、
一緒に情報検証可能性についても触れてほしいところです。
一次ソースの URL を本文に含めるとか,ハッシュの公開,電子署名など。
タイトル違わないか? (スコア:2, すばらしい洞察)
HTML・JPEG・CSV推奨で、PDFは非推奨という趣旨ではないか?
#個人的に白黒文書をJPEGというのは許し難いんだけど。
Re:タイトル違わないか? (スコア:1, 興味深い)
これは編集の問題。
掲載前「国民へ発信する重要情報のファイル形式」
掲載後「国民へ発信する重要情報はHTMLとPDF形式で」
スキャンものだから (スコア:1)
これは、スキャンからPDF化する過程での文字化けを忌避したものでない?
実際の精度は知らんけど、電子的な原稿からPDF化するなら
実質文字化けの問題は無いだろうから、そっちはPDFでもいいか。みたいな?
ピリオドとコンマと読点、あるいは濁音記号とダブルクォーテーション。
こんなつまんないスキャンミス、校正するのも大変じゃん。
言い換えれば、いつかどこかで電子文書化することもあるなら
最初から電子文書としての公開もあってしかるべき…
そこに、PDFもいいけどHTMLのほうが良いってことになるのかな。
これHTMLの汎用性というのもあるけど…
Android端末でもPDFが読めるとは言っても
480x320で読める文字サイズでA4のPDFを表示したら
実用的なものにはならないのよね。
世の中にはPDFと同じようにHTMLをスクロール強要で見る携帯電話もあるらしいけど
普通にHTMLはHTMLらしく、画面枠に合せて改行してもらえるほうがシアワセ。
#余談も余談、Jコミ新ビューワーで、セリフ数百文字を入力した
#二点リーダーにすべきなのかなぁ…とか思いながら(^_^;
#いやほんと最初から電子原稿のある小説はいいなぁと思った。
Re:スキャンものだから (スコア:1, すばらしい洞察)
震災直後の保安院の発表だっけ? (スコア:2, すばらしい洞察)
なんかFAXで来たやつをスキャンしたようなPDFが表示されてゲンナリした記憶がある。
それこそテキストにしろよってレベルだった。
東電の輪番停電のやつも最初はそんなかんじだったなぁ…
雇ってください (スコア:2, おもしろおかしい)
上からエクセル、PDFで回ってきた重要な情報をテキスト、htmlに整形してアップロードするだけの簡単なお仕事ならやってあげますから雇ってください
PDFならフォント埋め込みで (スコア:1, 興味深い)
フォントが埋め込まれていないPDFだと、読めないケースが出てくるのが困るのだけど。
とある端末でPDFファイル開いたら白紙だったので困った事がありました。
人間年を取ってくるとプレーンテキストが恋しくなる (スコア:1)
プレーンテキストで保存できるものは全てそのようにしていただきたい
文字エンコード?ハッ!洒落臭い
画像?日本が世界に誇るアスキーアートがあるではございませんか
光の速さで歩けは無茶だ!せめて走らせろ!
Re:人間年を取ってくるとプレーンテキストが恋しくなる (スコア:2)
年を取った人間なら、「画像はIsh形式で」といって欲しかった。
---------+---------+----------+
年をとるのは素敵なことです。
Re:人間年を取ってくるとプレーンテキストが恋しくなる (スコア:2)
#荒らしモデへの不当マイナスモデ無効になるけど、まぁいっかIDで。
Re:人間年を取ってくるとプレーンテキストが恋しくなる (スコア:1, すばらしい洞察)
「JPEG形式(静止画像データ)」とは何ですか (スコア:1)
保存形式 (スコア:0)
> 「ファイル」→「名前を付けて保存」→ファイルの種類にて『Webページ(*.htm,*html)』で保存とあるのが、ちょっと心配である。
何を心配しているのか知らんけど、もし単にExcelやWordでの保存が読みづらいHTMLを生成するというなら、それはMSに言うべきところで、利用者が手間をかけるものじゃ本来ないと思います。
Re:保存形式 (スコア:2, 参考になる)
せめて、Office固有の情報をばっさり切り落とす『Webページ(フィルタ後)』のほうであれば少しはましなのですけどね(Wordのみ、2002以降): フィルタ後の HTML の使用について [microsoft.com]。もっとも、(X)HTML以外(XML名前空間を明示)で書き込んでいるOffice/Word固有の情報を落とすだけなので、フィルタ後でもHTMLとしては相変わらずの出来です。
ただし、Wordに関しては「見出し1」〜「見出し6」をh1〜h6へ対応付けるなどそこそこまともな面もあるので、製作者の力量次第で(おぞましいCSSの山を除けば)そこそこまともなHTMLにすることも不可能ではありません。
Re: (スコア:0)
古くて新しい問題というところか(ちっとも解決されて来なかった)。この際、MSはどうでもいい。
この呼び掛けで、WordやExcelでのHTML保存を案内するのは、不適切だろう。容量が異常に肥大するだけでなく、ブラウザが四苦八苦する可能性もある。
Re:保存形式 (スコア:3, すばらしい洞察)
Webで公開する文書の話なんだから、Webで公開する技能やセンスを持つ人間が、その自治体には存在するはず。「WORD/EXCELしか扱えない人間が作るもの」の話じゃないはずなんだが。
おそらく、「WORD/EXCELしか扱えない人間が」作ったものを、そのままWebに出すような硬直的な組織やワークフローが問題なんだと思う。
Re:保存形式 (スコア:2, おもしろおかしい)
まあ、WORD/EXCEL を扱うのって、HTML を素で書くよりも
はるかに知識と技術力が必要ですけどね。
平時から指導しとけばこんなことには (スコア:0)
なぜPDF? (スコア:0)
本当になぜPDFなのか?というファイルが多すぎる。
緊急時にAcrobatReaderかGoogleChromeかそれに類するモノをDownloadして見てる余裕はないし
オンラインであってもGoogleDocumentViewはrobot避けに該当するのか見れない場合も多い気がする。
またPDFの内容にあってはただの文章をスキャンした画像といったことも多く、データの再利用もできない事も。
#どう見ても上記文章はPCで作成したデジタルデータがあるように思えてならなかったりするのだが…
#新人の頃、お客さんにインストール手順書なんかWordで書いてもいいけど、
#どこでも見れるようにtxtファイル版を用意しておけって言われたなぁ。
Re: (スコア:0)
PDFにテキスト情報が入っているファイルは、Googleとかでとりあえず見られるので以前ほどは困らなくなったと思います。
「テキストでそのまま載せればいいのに」というのは時折見かけるけど。
画像をスキャンしてPDF化→そのまま掲載ってのもあるけど、HTMLに変換する手間とかで見送られるよりはいいです。
(バスの時刻表とか)
だがFlash、てめーはダメだ。
# SolarisのサポートサイトがOracleに移管したらFlashページになった
# 「Q.会社のポリシーでFlashを禁止しています」「A.ポリシーを変えてください」とかどうかと・・・
Re:なぜPDF? (スコア:1, おもしろおかしい)
># SolarisのサポートサイトがOracleに移管したらFlashページになった
># 「Q.会社のポリシーでFlashを禁止しています」「A.ポリシーを変えてください」とかどうかと・・・
Oracleなんて、エラーコード増やしまくって電話帳ぐらいにして出版してその印税だけでくらすようになれ!
リテラシー以前に思いやりに欠ける (スコア:1, 参考になる)
役人に限ったことじゃないですよ。にわかPC文書作成者はみんなそう。
MSOfficeからHTMLで出すと(ゴミまみれはさておき)ボロ崩れすることもあり、もちろんWord同士でも崩れるなんて日常茶飯事ですよね。なのでWordで作ってそのままの形で出せることに価値を感じているようですね。古いReaderプラグイン(〜6.0とか)がクソ重くてしょっちゅうクラッシュもするのにそれを未だ使ってる人も居ること、携帯で見ること、視覚障害者...まったく配慮できません。
6.0で開いてみせてもしっくりこない様子。厚生労働省とか盾にして弱者への配慮を説いても理解を示さず。こちらが変換作業を請け負っても、その手間より一瞬の変換でUPできることを望む。等々...
リテラシー云々以前に他人への思いやりというものが欠如しているように見えます。
PDFよりJPEGなの? (スコア:0)
紙の資料をスキャンして渡されるなら、JPEGでばらばらになってるよりPDFの方がマシなイメージがあったんだけど・・・世の中そうでもないの?
特定の会社のリーダーがないと読めないようなフォーマット使うな!って意味?
そうは言っても、最近はスマートフォンでも何でもPDFぐらい読めると思うのだけど。
OCRソフトなりで透明テキスト付きになっていればなお良し!
# PDFよりJPEGを推進した人は、不祥事のお詫び文がJPEGでアップされていても、検索エンジン逃れだ!と非難しないようにw
Re:PDFよりJPEGなの? (スコア:1)
>紙の資料をスキャンして渡されるなら、
その前提が間違い。
普通は紙に印刷する必要が無い。
Re:PDFよりJPEGなの? (スコア:3, すばらしい洞察)
今は「国民に発信する情報」が話題なので、押印が必要な書類は入っていません。
新人。プログラマレベルをポケモンで言うと、コラッタぐらい
JIS推奨形式は辛いかも(Re:JPEGよりも・・・) (スコア:2)
> JPEGよりもTIFFにすべきと俺は思いますが・・・?
たしかに,
によると,電子化文書について,TIFF形式,PDF/A形式(長期保存向けのPDF),テキスト形式しか,JISでは推奨されていないように思えます。
TIFF形式だと,対応しているビューアーがあれば,複数ページをめくったり出来るようです。
ですが,今回のニーズ(通信帯域の抑止など)において,紙文書をスキャンしたものを保存する場合では,
JIS推奨の両形式ともふさわしくないのでしょう。
Re:JIS推奨形式は辛いかも(Re:JPEGよりも・・・) (スコア:3, 興味深い)
紙文章のスキャンだと通常モノクロですので、Bilevelが使えるTIFFの方が有利でしょう。
カラーの場合でも、TIFF内部でJPEG圧縮って手もあるのでIFD部分しか差はでません。
でも
>加えてTIFF形式では各ビューアーに機能のバラツキがあるため,
は難点ですね。Baseline TIFFではマルチページもJPEG圧縮も対象外なのがなぁ。
#マルチページはずっと必須だと思ってたけど仕様書みたら
#"A Baseline TIFF reader is not required to read any IFDs beyond the first one."
#だって
Re:JIS推奨形式は辛いかも(Re:JPEGよりも・・・) (スコア:2, すばらしい洞察)
Windowsに標準でビューアーが付いてない時点でダメでしょ。それでもソフトウェアのインストールで対応できるならまだいいほうだけど。ガラケーとかどうするの?
規格になっていれば実装の普及具合なんかどうでもいいんだったら、それこそPDFでいいじゃんって話になる。
Re:JIS推奨形式は辛いかも(Re:JPEGよりも・・・) (スコア:2)
見るだけでよければ、2000以前ならImaging、XPなら「画像とFaxビューア」、
Vistaなら「Windowsフォトギャラリー」、7なら「Windowsフォトビューアー」で見れるはず。
ガラケーではまず無理か。
Re:JIS推奨形式は辛いかも(Re:JPEGよりも・・・) (スコア:3, 参考になる)
TIFF形式って複数の画像フォーマットをタグによって管理している一種のコンテナの形式なので, 内部の画像フォーマットの互換性については実は保障されていないんですよね. なので互換性の確認・保障を行うには生の画像フォーマットに近いBMPやJPEGの方が確実ということはあります.
Re:JPEGよりも・・・ (スコア:1, 参考になる)
ネットでの閲覧対応なので、それを言うならGIFでしょう。4階調でよい。モスキートノイズもなく、容量も多分減る。TIFFではブラウザが対応しない。ただ、GIF化するオプションが、文書スキャナのソフトにないかもしれない。JPEGを白黒文書に使うのは妙だけど、汎用性があるというのは事実。
画像ソフトで加工する手間を惜しまぬなら、何でも出来るけど、それを言うならシンプルなHTMLにするのが吉...
Re:JPEGよりも・・・ (スコア:1)
重要な情報だというので画像を注視していたら、グロ画像に
切り替わってギャー。
# これももう古い話になってしまったか
-- う~ん、バッドノウハウ?