パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

ゼンリンが国内主要都市の3Dモデルデータを提供へ」記事へのコメント

  • by nim (10479) on 2014年08月28日 12時24分 (#2665434)

    サロゲートペアなんて対応してないソフトだって未だあるんだし、実用上はBMPだけでいいでしょ。
    そうしたら(英数字も含めて)2バイトですよ。
    (あえて誤解を招きかねない言い方をすると)Unicode に 3 バイトの文字はありません。
    日本語が3バイトになるのは、単にUTF-8というエンコード方式によるもので。

    • カタコトの日本語というと、半角カナになってしまうのかなぁ。
      あ、半角カナもUTF-8だと3バイトか。

      親コメント
      • by Anonymous Coward on 2014年08月28日 12時55分 (#2665452)

        外来語をカタカナで書いたりするので勘違いしやすいですが、今、日本語を勉強している外国人は「ひらがな」から勉強を始めるので、カタカナは非常に弱いです。

        親コメント
        • by Anonymous Coward

          片仮名にされると辞書で調べることもできないしね。元の綴りのままにしてくれないんだったら文字が意味を持っているし調べることのできる漢語の方がマシなんだな。

    • by Anonymous Coward

      (あえて誤解を招きかねない言い方をすると)Unicode に 3 バイトの文字はありません。

      それを「誤解を招きかねない言い方」で済ますのはいかがかと。
      それを言うのなら、そもそも Unicode 自体はバイト数と関連しません。
      よって、「Unicodeは実用上2バイト」も間違い。

      • by Anonymous Coward

        「誤解を招きかねない言い方」っていうのは、厳密な表現ではないけど許してね、という語彙だから、
        そこで厳密には違うと指摘しても無意味じゃないかな。

      • by Anonymous Coward

        Unicodeとバイト数は関係いない以上、
        『サロゲートペアや合成文字や異体字などを無視すれば、「Unicodeは実用上2バイト」で1文字を識別する情報を格納できる』
        と解釈する以外ないのでは?
        どのように解釈したのかきいてみたい。

        • by Anonymous Coward

          元々の理念だった2オクテット固定長で扱いやすいUTF-16が真っ先に思い浮かんだのでは?

          • by Anonymous Coward

            いや、それは UTF-16 でなく UCS-2。

        • by Anonymous Coward
          正規化という手続きがある以上、ユニコードは、一文字二バイトと決めつけてはならないが妥当かと。濁点に関して、Mac OS Xでは濁点とかは合字ですし。
    • by Anonymous Coward

      テキスト系のプログラミングをやってる人はわかると思うけど、ユニコードをUTF-8やUTF-16でエンコードするのは、環境の問題なので、普通は4バイトの配列にする。つまり、UCS-4が一番ナチュラルだし、unicode.orgでもそうやってインデックスを付けている。

      • by Anonymous Coward

        >普通は4バイトの配列にする

        普通ってどこの普通だよ。内部エンコーディングでもUTF-16かUTF-8が大半で、32bitで持つシステムが少数派でしょ。Pythonくらいか。

        • by Anonymous Coward
          wchar_t は 4 バイトが普通ですよ。
          UTF-8 が主流なのは情報交換用。
        • by Anonymous Coward

          まさに環境依存の話してるじゃないか……。それじゃねーんだよ。

    • by Anonymous Coward

      絵文字「」

日本発のオープンソースソフトウェアは42件 -- ある官僚

処理中...