taggaの日記: 粘着質なのに飽きっぽいから文字コードは嫌いだ 5
ここ数日、単に気になるという理由でスラド日記の文字コードがらみを調べている。 情報をくれたり、対応してくれたりした方々に感謝。
問題だと思うところは、今のところ 3つ。
- 正当な
数値実体文字参照について、保存しても HTML、RSS の両方ともで出力されないものがある。 (前々の日記参照) - 不正な
数値実体文字参照について、HTML、RSS の両方でそのまま出力されるものがある。 (emkさんの解説参照) - UTF8 の文字について、仮保存するとその文字以降が失なわれるものがある。 (前々回の日記の後半が大きく変わっている理由の 1つはこれ)
とりあえず 1. だけなんとかしてもらえるとうれしい。16進だけでもいいので。
もう少し調べたら sourceforge.jp に書き込むべきなのだろうか。
;; できればこういう問題に詳しい方、代りにお願い。
2. は、1. が片付けば該当の日記の方はパッパと書き換えてくれると思うので、 どうでもいいかも。 致命的なのは 3 だけど、これもしばらくは問題にはならないはずなので、いいかな。
Unicode ができて、僕の仕事は楽になったけど、やっぱり仕様が好きになれない。 字種と字体の関係が現実にはスパゲッティだからといって、 仕様でもスパゲッティにしなくてもいいじゃないか。 それに日本政府の規則も加わるとなんなんだろうと……。 規約が必要なのは分かることは分かるけど。
しかし、字体になんであんなにこだわる人がいるんだろう。
実は少人数だけど、頭文字が Y-Z のクラスを担当している。
約半数が Watanabe さんで、みんな字体がどっかかんか違う。
できた学生たちなので僕が漢字を間違えても文句は言わないけど、
虫眼鏡を使わないと名字の識別ができないのは困る。
;; 老眼という説もあるけど。
個別識別に字体というのがなあ。大体、普通の人に名前に使える漢字に、 <寿> と <壽> だと両方 OK だけど、 <吉> が OK で、 <つちよし U+20BB7>[wikipedia SVG] が NG (後のは単に異体字であるだけでなく、俗字) だとか説明して分かって もらえると思っているのか。窓口だって分かってないんだぞ。 というわけで、字種で判断するようにしてくれると、大幅に助かる。切実に。
;; 漢字の変な読み方は教師に迷惑です。難しい漢字は子どもに迷惑です。
数値実体参照という言葉はありません (スコア:1)
Re:数値実体参照という言葉はありません (スコア:1)
たびたびご指摘ありがとうございます。
字体 (スコア:0)
国が違えば、字形が違うよね位は理解できるとは思いますが…。
Re:字体 (スコア:1)
欧米の中の人たちには、アキュートやグレーブやウムラウトみたいな話で
喩えてみればいいんじゃないかな?
もっと大雑把に言っちゃえば、大文字と小文字みたいなノリで
文字に色んなバリアントがあるんだよ、と言えば分かってくれるかも。
Re:字体 (スコア:1)
英語圏の人なら 〈i〉と〈j〉、〈u〉と〈v〉のことや、 〈s〉と〈ſ〉(Latin small letter long s, JISで近いのは積分記号∫、"総和" を意味する summa の頭文字) のこと が説明に使えると思います。 前者は近代までは、異体字の組ですが、現在では異なる字種になっています。 後者は、〈s〉に収斂して、〈ſ〉が使われなくなってしまいました。 欽定訳聖書やシェークスピアのファクシミレ版を文学の 授業で読んでいれば、知っているです。
現代にしぼると〈a〉と〈a〉(イタリックをスラントで代用してなければ ギリシア文字のαに似た字形のはず) のように書体と字体が混同されやすいのが、 問題かもしれません。
ただ、表音文字の異体字と、表語文字 (表意文字)の異体字は、 レベルが違っていると感じる人が多いように思います。 表語文字では、異体字が異綴に感覚的に対応しているのでないでしょうか。 「Ann は最後に e が付いているの」 (Anne は仏語風)とこだわる某書の主人公の考えと、 異体字にこだわる人たちの考えは同レベルでしょう。