EarOwlの日記: Shift_JIS/CP932 → Unicode で変換先が異なる文字
JIS X 0208 の範囲の文字で、 Shift_JIS または CP932 から Unicode に変換した際に、実装や変換元の文字コードの指定により変換先の文字が異なるもの。見つかった分だけ。
1-17 OVERLINE ⇔ U+203E OVERLINE (A)
⇔ U+FFE3 FULLWIDTH MACRON (F)
1-29 EM DASH ⇔ U+2014 EM DASH (A)
⇔ U+2015 HORIAZONTAL BAR (A)
1-33 WAVE DASH ⇔ U+301C WAVE DASH (W)
⇔ U+FF5E FULLWIDTH TILDE (F)
1-34 DOUBLE VERTICAL LINE ⇔ U+2016 DOUBLE VERTICAL LINE (A)
⇔ U+2225 PARALLEL TO (A)
1-61 MINUS SIGN ⇔ U+2212 MINUS SIGN (N)
⇔ U+FF0D FULLWIDTH HYPHEN-MINUS (F)
1-79 YEN SIGN ⇔ U+00A5 YEN SIGN (Na)
⇔ U+FFE5 FULLWIDTH YEN SIGN (F)
1-81 CENT SIGN ⇔ U+00A2 CENT SIGN (Na)
⇔ U+FFE0 FULLWIDTH CENT SIGN (F)
1-82 POUND SIGN ⇔ U+00A3 POUND SIGN (Na)
⇔ U+FFE1 FULLWIDTH POUND SIGN (F)
2-44 NOT SIGN ⇔ U+00AC NOT SIGN (Na)
⇔ U+FFE2 FULLWIDTH NOT SIGN (F)
普通のテキストに現れる程度のことだったら、単に似た字形の別の文字で表示されるだけで大したことはない場合も多いけれど、厄介なのはファイル名なんかに使われていたりする場合。変換の仕方によって異なるファイル名になってしまう…
追記...
このような形でまとめた資料があまり無いように思ったので書いてみたものの、書き終わった後に http://www8.plala.or.jp/tkubota1/unicode-symbols-map2.ja.html を見つけました…
追記2...
具体的な環境・コマンド・オプション毎の差異を一覧表にしてみた。
Shift_JIS/CP932 → Unicode で変換先が異なる文字 More ログイン