アカウント名:
パスワード:
つめれば12byteはさすがにいらないとは思いますが、 内部処理上では、基本コード+異体字用コード+オプションで、 4×3=12ってのはありそうな話ですね。 Unicode でも、サロゲート、コード本体、異体字タグ前後、 異体字コードとか駆使することになると、可変長で最大 そのくらいいきそうです。
大半の文字はそういった異体字は不要なわけで、変に全部を とりこもうとするコード体系を使うよりも、XMLでもなんでも 良いですが「タグづけ」を行ってアプリケーションレベルで 処理してしまうほうのが得策でしょう。 OSレベル(すなわち一般
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
普通のやつらの下を行け -- バッドノウハウ専門家
あらゆる漢字を扱えること (スコア:1, 興味深い)
知り合いの印刷屋から聞いた話ですけど,例えば銀行からの
ダイレクトメールの場合,顧客に失礼がないように顧客の名前を
「忠実に」漢字で印刷しなければならないそうです。ちょっと
前まで戸籍登録の際に使用できる漢字には制限がなかったそうで,
そのために誤字までもが正式な名前に使用される漢字
Re:あらゆる漢字を扱えること (スコア:1, 興味深い)
つめれば12byteはさすがにいらないとは思いますが、 内部処理上では、基本コード+異体字用コード+オプションで、 4×3=12ってのはありそうな話ですね。 Unicode でも、サロゲート、コード本体、異体字タグ前後、 異体字コードとか駆使することになると、可変長で最大 そのくらいいきそうです。
大半の文字はそういった異体字は不要なわけで、変に全部を とりこもうとするコード体系を使うよりも、XMLでもなんでも 良いですが「タグづけ」を行ってアプリケーションレベルで 処理してしまうほうのが得策でしょう。 OSレベル(すなわち一般
Re:あらゆる漢字を扱えること (スコア:1)
文書(データ)としては「考えない限り」とおっしゃっている「編集」は必須だと思っちゃうし、検索のためのインデックス処理をどうやるのかもわからんし(古い計算機屋的考えなん
本当かい♪本当かい♪
Re:あらゆる漢字を扱えること (スコア:2, 興味深い)
「編集」の場合、何が難しいんでしょうか?
#遅くなってUIとして受け入れがたいという主張なら理解しますが。
Unicodeみたいに「グリフIDやその実体参照表現と違って、サイズが
固定の文字セットだからコンピュータで効率よく扱うことができる」
という幻想を与えておきながら、2, 3年に一度改定されるのに
振り回され続けたいですか?
注: Unicodeコンソーシアムは1991設立で、最新はUnicode 3.2です。
#個人的には文字コードなんて基本的なものは、10年に一度の改定でも、
#十分迷惑だと思います。
それよりは、いっそのこと文字のレパートリーが、日々増
Re:あらゆる漢字を扱えること (スコア:1)
編集は、結局その文字を使うならなんらかのコードは与えなくちゃ他から簡単には使えないだろうな、と。
ただ、それでも既存の表現との関連(異体字なわけで、読みとか意味は同じ?)はなければいけないんじゃないかな?と考えたり、と。
アプリというよりはシステムと運用も絡んできちゃいそうで、なんか考えがまとまらないというのが正直なところです。
別にUNICODEで十分なんていいませんし、フォントを作るというのはどちらかというと賛成なんで
本当かい♪本当かい♪
Re:あらゆる漢字を扱えること (スコア:1)
でも、その内部コードへの漢字を割り当てを考えたら、頭痛くなりません?
そんなこと考えるより、文字の定義(名前または文字コード)をもつ
共用体へのポインタとして扱った方が簡単だったりしませんか?
#特定のシステムまたはアプリケーションの中では。
#交換時には、文字コードと実体参照形式に戻す。
> ただ、それでも既存の表現との関連(異体字なわけで、読みとか
>意味は同じ?)はなければいけないんじゃないかな?と考えたり、と。
でも、これって普通の文字コード
Re:あらゆる漢字を扱えること (スコア:1)
>そんなこと考えるより、文字の定義(名前または文字コード)をもつ
>共用体へのポインタとして扱った方が簡単だったりしませんか?
ええ、でも、文字の定義を与える時点で、なんらかのルールとの整合を持たせるわけですから、
文字コードを振るのと本質的には変わらない、つまり、今までの問題と同じ面をもつような。
>でも、これって普通の文字コードでも必要ですよね。JIS X 0208だって、
>第2水準だと読みですら並んでないですし。
ええ、既存の文字コードのルールも完璧なものではな
本当かい♪本当かい♪
Re:あらゆる漢字を扱えること (スコア:1)
> 文字コードを振るのと本質的には変わらない、つまり、今までの問題と同じ面をもつような。
実は、そのルールはあります。
文字コードは一意に決定できないといけないですが、グリフの識別子は、
極端な話をすると一意じゃなくても構いません。
#正しくグリフを指示できればよいだけで。
例えば、グリフ識別子管理者名+IDみたいな形になっていれば、
別の管理者が同じ文字に対して別のIDを振っても問題は少ないし、
さらに極端に言えば、この識別子はURIなんかでも構いません。
#URIが差す先の定義の形式はもちろん標準化の必要があります。
この重複をチェックして、名寄せを行って文字セットを定めるのは、
文字コードを制定者の仕事だと思います。
で、件のAC氏は、その管理者としてAdobeを、定義の形式として(?)CIDに
してしまえと言っているのではないかと。
#手をつける最初の段階としては、悪くないかもしれないです。
ちなみに、私が言ってるのは、実はISO/IEC規格の説明なのです。
が、古い記憶で書いているので、間違いもあるかと思います。
興味があったら、
グリフ登録関連文献のサーチ結果 [google.co.jp]を拾い読みして下さい。
#AdobeのCIDなんてのも、これを受けてできたものなのですよ。