パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

文字エンコーディングはUTF8で本当に十分なのか?」記事へのコメント

  • by Anonymous Coward
    作り手が意識することなく扱えれば、それでいいんです。。。
    「~」の文字化け問題とかめんどくさー(;´Д`)
    • by Anonymous Coward
      文字化けはUTF-8をShift_JIS中継して下手に表示しようとするから起きるんでしょ。
      UTF-8しか無ければ問題ない。
      • by Anonymous Coward
        > UTF-8しか無ければ問題ない。

        いいえ。UTF-8しかなくたって、「〜」のつもりで「~」が使われたり
        非互換な変換と全く同じ気持ち悪さを引きずる訳ですが。

        あなたのシステムでUTF-8文書に「 ̄―\~∥…-¥¢£¬」と入力してみましょう。
        「‾—\〜‖⃯−¥¢£¬」とはなりませんでしたか?
        • > 「‾—\〜‖⃯−¥¢£¬」とはなりませんでしたか?

          それはやっぱり、Windows-31JやShift_JISに変換されているから起きている問題ですね。
          --
          okome
          • ちがいます。入力から出力までぜ~んぶUTF-8で揃えても発生します。
            WindowsとMac OS Xで、OS標準のものだけ使って文字入力して検証してみたら、
            予想通りの結果になりました。
            • 入出力だけじゃなく、内部処理も UTF-8 のままでないと、コード変換が起きて文字が変化する可能性は消えませんが。

              • ここで言いたいのは、
                コード変換が介在しない、100% pure Unicode 環境でも問題は発生する
                です。
                途中のどこかではなく、入力の最初(IME)のところで既に問題が発生してます。
                • 「なみ[変換]」と入力すると、Windowsでは「~」(FULLWIDTH TILDE)になり、Macでは「〜」(WAVE DASH)になります。
                • 全角入力モードで「-」を入力すると、Windowsでは「-」(FULLWIDTH HYPHEN-MINUS)になり、Macでは「−」(MINUS SIGN)になります。
                IMEの、辞書や半角→全角変換テーブルの問題なので、ある種の「コード変換の問題」とは言えるのかもしれませんが……。
              • 途中のどこかではなく、入力の最初(IME)のところで既に問題が発生してます。

                その IM は全く同一のシステムでの比較ですか? せめて両方とも同じバージョンの ATOK だとか、Anthy だとかで同じものに揃えて試さないと比較にならないのですが。

                Microsoft IME とことえりの差とかにしか見えませんよ。

                # そもそも IM を利用している段階で、プログラムによる加工が行われている訳ですが。

              • by iwa (2980) on 2007年03月13日 11時23分 (#1125169)
                言いたいことはただ一つ、「途中でコード変換処理が介在せず、システム全部がUnicodeベースで構築されていても、おおもとのコメントにある問題は発生する」です。

                > Microsoft IME とことえりの差とかにしか見えませんよ。

                まさにその通り。でも、その「差」はコード変換とは「直接」関係があるわけではありませんよね。
                親コメント
              • by Stealth (5277) on 2007年03月13日 12時26分 (#1125212)

                大元のコメントにある問題って、本来入力しようとした文字を IM が適切に変換していない/できないから発生している事ですよね? 「コピペで入力」してればそのまま化けずに入力されるのですが。

                キーマップで割り当てられた文字を IM 経由で入力しようとした際に変換処理が発生している訳で、何も変換を行わずに入力 (つまりコード表などから入力) した場合には、何の問題もありませんよ、ということです。

                IM を通して \ を押しても全角バックスラッシュに変換されない事が分かってるユーザなら、全角のバックスラッシュを入力してみてくれと言われたら \ を押したりせず、「きごう」と入れて変換するなりして全角バックスラッシュが出るように変換して入力しますよ。

                IM に入力されたコードからどんな文字に変換されるかは IM 依存な訳で、UTF-8 にしたからという理由ではありません。

                親コメント
              • FEPの介在があればこそ文字コード変換の非互換と同じ範囲で済むのでありまして、波型の図形を頼りにコード表からコピペで入力などさせようものならそれこそ収拾がつきませんよ。

                Windowsで入力する「~」とMacその他の「〜」はUnicode以前においては同じ文字であって、別の文字になるのはUnicodeで表現されるからにほかなりません。

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

処理中...