Re:あらゆる漢字を扱えること (#191298) | 総務省の『オープンソース』とは

「総務省の『オープンソース』とは」記事へのコメント

記事ページを表示すべてのコメント取得

検索173コメント Log In/Create an Account

あらゆる漢字を扱えること (スコア:1, 興味深い)

by Anonymous Coward

「あらゆる漢字を扱えること」ってのが気になりますね…。

知り合いの印刷屋から聞いた話ですけど，例えば銀行からの
ダイレクトメールの場合，顧客に失礼がないように顧客の名前を
「忠実に」漢字で印刷しなければならないそうです。ちょっと
前まで戸籍登録の際に使用できる漢字には制限がなかったそうで，
そのために誤字までもが正式な名前に使用される漢字
- Re:あらゆる漢字を扱えること (スコア:1, 興味深い)
  
  by Anonymous Coward
  
  つめれば12byteはさすがにいらないとは思いますが、内部処理上では、基本コード＋異体字用コード＋オプションで、 4×3=12ってのはありそうな話ですね。 Unicode でも、サロゲート、コード本体、異体字タグ前後、異体字コードとか駆使することになると、可変長で最大そのくらいいきそうです。
  大半の文字はそういった異体字は不要なわけで、変に全部をとりこもうとするコード体系を使うよりも、XMLでもなんでも良いですが「タグづけ」を行ってアプリケーションレベルで処理してしまうほうのが得策でしょう。 OSレベル(すなわち一般
  - Re:あらゆる漢字を扱えること (スコア:1)
    
    by dcdc (4077)
    
    それだと表示はできても「扱う」ことは難しい気がします。いや、真実、文字表示だけならいいのかもしれませんが。
    文書(データ)としては「考えない限り」とおっしゃっている「編集」は必須だと思っちゃうし、検索のためのインデックス処理をどうやるのかもわからんし(古い計算機屋的考えなん
    
    --
    
    本当かい♪本当かい♪
    - Re:あらゆる漢字を扱えること (スコア:2, 興味深い)
      
      by Jadawin (2174)
      
      ＃私は190714のACな人に同意。
      
      「編集」の場合、何が難しいんでしょうか？
      
      ＃遅くなってUIとして受け入れがたいという主張なら理解しますが。
      
      Unicodeみたいに「グリフIDやその実体参照表現と違って、サイズが
      固定の文字セットだからコンピュータで効率よく扱うことができる」
      という幻想を与えておきながら、2, 3年に一度改定されるのに
      振り回され続けたいですか？
      
      注： Unicodeコンソーシアムは1991設立で、最新はUnicode 3.2です。
      
      ＃個人的には文字コードなんて基本的なものは、10年に一度の改定でも、
      ＃十分迷惑だと思います。
      
      それよりは、いっそのこと文字のレパートリーが、日々増
      - Re:あらゆる漢字を扱えること (スコア:1)
        
        by dcdc (4077)
        
        書いた後に内容としてはそれほど大きく違うところはないかなぁ？とかも思っちゃいましたけど、それは置いておいて。
        
        編集は、結局その文字を使うならなんらかのコードは与えなくちゃ他から簡単には使えないだろうな、と。
        ただ、それでも既存の表現との関連(異体字なわけで、読みとか意味は同じ?)はなければいけないんじゃないかな？と考えたり、と。
        アプリというよりはシステムと運用も絡んできちゃいそうで、なんか考えがまとまらないというのが正直なところです。
        
        別にUNICODEで十分なんていいませんし、フォントを作るというのはどちらかというと賛成なんで
        
        --
        
        本当かい♪本当かい♪
        
        Re:あらゆる漢字を扱えること (スコア:1)
        
        by Jadawin (2174)
        
        > 編集は、結局その文字を使うならなんらかのコードは与えなくちゃ他から簡単には使えないだろうな、と。
        
        でも、その内部コードへの漢字を割り当てを考えたら、頭痛くなりません？
        そんなこと考えるより、文字の定義(名前または文字コード)をもつ
        共用体へのポインタとして扱った方が簡単だったりしませんか？
        
        ＃特定のシステムまたはアプリケーションの中では。
        ＃交換時には、文字コードと実体参照形式に戻す。
        
        > ただ、それでも既存の表現との関連(異体字なわけで、読みとか
        >意味は同じ?)はなければいけないんじゃないかな？と考えたり、と。
        
        でも、これって普通の文字コード
        
        Re:あらゆる漢字を扱えること (スコア:1)
        
        by dcdc (4077)
        
        ＞でも、その内部コードへの漢字を割り当てを考えたら、頭痛くなりません？
        ＞そんなこと考えるより、文字の定義(名前または文字コード)をもつ
        ＞共用体へのポインタとして扱った方が簡単だったりしませんか？
        
        ええ、でも、文字の定義を与える時点で、なんらかのルールとの整合を持たせるわけですから、
        文字コードを振るのと本質的には変わらない、つまり、今までの問題と同じ面をもつような。
        
        ＞でも、これって普通の文字コードでも必要ですよね。JIS X 0208だって、
        ＞第2水準だと読みですら並んでないですし。
        
        ええ、既存の文字コードのルールも完璧なものではな
        
        --
        
        本当かい♪本当かい♪
        
        Re:あらゆる漢字を扱えること (スコア:1)
        
        by Jadawin (2174) on 2002年10月29日 14時49分 (#191298) 日記
        
        > ええ、でも、文字の定義を与える時点で、なんらかのルールとの整合を持たせるわけですから、
        > 文字コードを振るのと本質的には変わらない、つまり、今までの問題と同じ面をもつような。
        
        実は、そのルールはあります。
        文字コードは一意に決定できないといけないですが、グリフの識別子は、
        極端な話をすると一意じゃなくても構いません。
        
        ＃正しくグリフを指示できればよいだけで。
        
        例えば、グリフ識別子管理者名+IDみたいな形になっていれば、
        別の管理者が同じ文字に対して別のIDを振っても問題は少ないし、
        さらに極端に言えば、この識別子はURIなんかでも構いません。
        
        ＃URIが差す先の定義の形式はもちろん標準化の必要があります。
        
        この重複をチェックして、名寄せを行って文字セットを定めるのは、
        文字コードを制定者の仕事だと思います。
        
        で、件のAC氏は、その管理者としてAdobeを、定義の形式として(?)CIDに
        してしまえと言っているのではないかと。
        
        ＃手をつける最初の段階としては、悪くないかもしれないです。
        
        ちなみに、私が言ってるのは、実はISO/IEC規格の説明なのです。
        が、古い記憶で書いているので、間違いもあるかと思います。
        興味があったら、
        グリフ登録関連文献のサーチ結果 [google.co.jp]を拾い読みして下さい。
        
        ＃AdobeのCIDなんてのも、これを受けてできたものなのですよ。
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

総務省の『オープンソース』とは More ログイン

「総務省の『オープンソース』とは」記事へのコメント

あらゆる漢字を扱えること (スコア:1, 興味深い)

Re:あらゆる漢字を扱えること (スコア:1, 興味深い)

Re:あらゆる漢字を扱えること (スコア:1)

Re:あらゆる漢字を扱えること (スコア:2, 興味深い)

Re:あらゆる漢字を扱えること (スコア:1)

Re:あらゆる漢字を扱えること (スコア:1)

Re:あらゆる漢字を扱えること (スコア:1)

Re:あらゆる漢字を扱えること (スコア:1)

スラド