Junosの日記: 『Software Design』2016年12月号第2特集「文字コード攻略マニュアル」で気になるところ 2
http://gihyo.jp/magazine/SD/archive/2016/201612
すでに安岡先生の指摘があり、訂正も出ましたが、まだ気になるところはあるので簡単にメモ。
- ゼロからはじめる文字コード
* 2016年の記事でIVD / IVSに触れられないのはおおきな瑕疵かと。UTF-8の項で「ひらがなや漢字が3バイトで表現される」という不正確な表現が出てくる一因になっています。
* JIS X 0208ではギリシャ文字やキリル文字、罫線なども扱えます。
* UNICODEもJISで規格化されています(JIS X 0221)。そういえばISO/IEC 10646は出てこない……
* Microsoftが「OEMメーカーに対してJIS X 0208の拡張を許していた」とありますが、MS-DOS時代の日本語文字の取りあつかいは漢字ROMが主流で、MSが許す・許さないという話とは違うのではないかと。
- HTMLと文字コード
* 「指定した文字コードに存在しない文字を表現するには」、「Shift-JISをcharset属性に指定していると、JIS X 0213に含まれる第3水準漢字などが扱えません」とありますが、JIS X 0213にShift_JIS-2004が挙げられているのを取りあげないのはまあいいとして、そのあとの「文字参照を使う」であつかう方法を挙げているのですから、正確に表現できていません。「文字集合」と「文字符号化方式」と「文字コード」の使い分けがうまくできていないからですね。
- Javaと文字コード
* char型と「文字」の使い分けがうまくできていません。そのためか、「Unicodeでの文字数の概念」というよくわからない表現が出てきます。
- MySQLと文字コード
* 「latin1(ISO 8859-1)」が突然登場します。
リンクありがとうございます (スコア:2)
さっき「お詫びと訂正」(Software Design, 2017年1月号, p.184)を読んだのですけど、これだけたくさんの「訂正」があると、どれが「訂正」できていて、どれが「訂正」しきれていないのか、正直よくわからなくて…。まあ「初心者が書いた」初心者向けの記事だったということでしょうか。
Re:リンクありがとうございます (スコア:1)
訂正が多いように見えるのは登場回数の多い「0x8F未満」を丁寧に「0x7F以下」に直しているからで、全体としては安岡先生の指摘の範囲にとどまります。
「初心者」というよりは、Web系の開発で得た知見を体系的に整理したり勉強したりせずにアウトプットした印象です。たぶん仲間内では文字コードにくわしい人間ということになっているのだと思います。
技術評論社は文字コードで本も出している [gihyo.jp]のですから、私も編集者の責任がおおきいと思います。というか、どうしてこんな人選になったのかが謎……