パスワードを忘れた? アカウント作成
12974233 journal
日記

EarOwlの日記: Shift_JIS/CP932 → Unicode で変換先が異なる文字

日記 by EarOwl

JIS X 0208 の範囲の文字で、 Shift_JIS または CP932 から Unicode に変換した際に、実装や変換元の文字コードの指定により変換先の文字が異なるもの。見つかった分だけ。

1-17 OVERLINE             ⇔ U+203E OVERLINE (A)
                          ⇔ U+FFE3 FULLWIDTH MACRON (F)
1-29 EM DASH              ⇔ U+2014 EM DASH (A)
                          ⇔ U+2015 HORIAZONTAL BAR (A)
1-33 WAVE DASH            ⇔ U+301C WAVE DASH (W)
                          ⇔ U+FF5E FULLWIDTH TILDE (F)
1-34 DOUBLE VERTICAL LINE ⇔ U+2016 DOUBLE VERTICAL LINE (A)
                          ⇔ U+2225 PARALLEL TO (A)
1-61 MINUS SIGN           ⇔ U+2212 MINUS SIGN (N)
                          ⇔ U+FF0D FULLWIDTH HYPHEN-MINUS (F)
1-79 YEN SIGN             ⇔ U+00A5 YEN SIGN (Na)
                          ⇔ U+FFE5 FULLWIDTH YEN SIGN (F)
1-81 CENT SIGN            ⇔ U+00A2 CENT SIGN (Na)
                          ⇔ U+FFE0 FULLWIDTH CENT SIGN (F)
1-82 POUND SIGN           ⇔ U+00A3 POUND SIGN (Na)
                          ⇔ U+FFE1 FULLWIDTH POUND SIGN (F)
2-44 NOT SIGN             ⇔ U+00AC NOT SIGN (Na)
                          ⇔ U+FFE2 FULLWIDTH NOT SIGN (F)

普通のテキストに現れる程度のことだったら、単に似た字形の別の文字で表示されるだけで大したことはない場合も多いけれど、厄介なのはファイル名なんかに使われていたりする場合。変換の仕方によって異なるファイル名になってしまう…

追記...
このような形でまとめた資料があまり無いように思ったので書いてみたものの、書き終わった後に http://www8.plala.or.jp/tkubota1/unicode-symbols-map2.ja.html を見つけました…

追記2...
具体的な環境・コマンド・オプション毎の差異を一覧表にしてみた。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

読み込み中...