パスワードを忘れた? アカウント作成
4732 story

まだ直します、JIS漢字 48

ストーリー by Oliver
どうなる日本語 部門より

名前を書き忘れたのでAC扱いな誰か曰く、"財団法人 日本規格協会符号化文字集合調査研究委員会は15日、JIS X 0213 改正原案の公開レビュー資料を公開した。意見の提出期限は2月15日。
今回の改正は表外漢字字体表への対応がメイン。このため、X 0213のうち168字の例示字体を変更することを予定している。変更はそれまでの包摂の範囲内である。83JISより遙かにマイルドで「非互換」とも言えない変更とは言え、彼の団体がコードポイントの増加だけで対処しなかったことについて、私はかなり複雑な気分である。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2003年01月16日 8時14分 (#236089)
    規格票に載せられる「例示字体」は本当に例示でしかなく、規格が意図しているのは包摂規準の範囲内のすべての文字なので、包摂基準の範囲内で例示字体を変えても、規格としてはまったく変化がないはず。ですので、互換とか非互換とかいうことはまったく問題にならないと思います。

    ただ、いくら例示にすぎないといっても、規格票を読んだりフォントを作ったりする人は、その例示字体を参考にすることが多いので、実際に世に出てくる製品は例示字体に似た字体を実装しているものが多くなります。ですので、例示字体にどんな文字をもってくるかが問題にされます。

    • by Anonymous Coward on 2003年01月16日 10時37分 (#236134)

      UCS互換漢字10文字の追加もありますのでお忘れなく。

      これに関しては、第一次規格に適合したフォントに文字を 追加するだけでなく、既存の部分の字体設計を変更する 必要がある場合もある、非互換な変更です。例えば、 クワクチヤウ ワタナベ和田研明朝 [asahi-net.or.jp]は、既存のグリフ 6 文字分を追加された 位置に移動しなければなりません。

      # 過去に正体がバレているので AC

      親コメント
      • by Anonymous Coward on 2003年01月16日 11時16分 (#236163)
        そうですね、その部分を忘れていました。 ですので、「規格にはまったく変化はないはず」というのは誤りです。

        ただし、互換性が失われる、というのについては、ほんとうに そうなんでしょうか? 既存のコードポイントについては、包摂規準の変更も 行わないような印象を受けました。

        つまり、従来の字体を「A」、「字体表」の字体を「B」とするなら、

        • 従来のコードポイント: 「A」と「B」を包摂したもの
        • 新しく追加された「互換文字」: 「B」のみ (包摂規準の例外)
        となるのだと思います。ということは、 従来のコードポイントと「互換文字」の両方に「B」の字体を持つような フォントを実装してもかまわない、ということではないでしょうか。

        「クワクチヤウワタナベ」 (たぶん、従来のコードポイントに「B」の字体を実装してあるのだと想像します) は、そのような方針で実装すればよい (してもよい) と思います。

        親コメント
        • by Anonymous Coward on 2003年01月16日 11時41分 (#236173)

          なりません。3-1)0213-pdam1.pdf の 3 ページ目をご覧ください。 包摂規準の適用範囲を狭める改定を盛り込んでいます。

          互換性という観点からは既存のコードポイントを二つに割るなら 2 個付け加えるべきでしょうけど、重複符号化になります (「B」 を入力するときに、どちらのコードポイントを使えばいいか 分からない) ので、一般使用される符号化文字集合ではそういう 処理は行わないと思います。

          結局、移行コストは規格の技術的内容を正確に理解したうえで 積極的に対処していたユーザにかかるわけですが、やむを得ない でしょう。

          親コメント
          • 2)repo2.pdf の 16 ページ目には 「注:互換漢字の定義は別途定める必要がある。すなわち、 互換漢字とは等価の既存漢字を包摂の分離をしないで包摂内の文字を追加する目的で使用される特殊な漢字であり、 一般の漢字とは異なる用法を定義する必要がある」とあります (強調引用者)。

            これだと、もとの漢字の包摂規準は変更しないという意味になりませんか?

    • なぜ辞書と違う字をあててしまうのかやっとわかりました。
      例示がマズいんですな。
      • > なぜ辞書と違う字をあててしまうのかやっとわかりました。
        > 例示がマズいんですな。
        そうとも言い切れない。
        その辞書が実地調査を一切していなければ、例示が正しくて辞書が間違い。
    • それにしても、 一面を指示する終端バイトが変わることになっているけど。

      ESC $ ( O → ESC $ ( Q など。
  • 参考リンク (スコア:2, 参考になる)

    by chronatog (8479) on 2003年01月16日 10時39分 (#236137) 日記
    小形克宏氏の連載 [impress.co.jp]も読んでおくと良いかな。
    • by ribbon (11750) on 2003年01月16日 14時00分 (#236262) 日記
      小形克宏氏の連載ですが、連載が中断してからもう1年近くになります。このままずっと中断したままなんでしょうか?

      そうだとしたら、ちょっと残念。
      親コメント
    • by Anonymous Coward

      法務省が人名漢字表を大幅に増やす予定だそうです。 (\\ 朝日 [asahi.com]/ZAKZAK [zakzak.co.jp]/日経 [nikkei.co.jp])

      表外漢字字体表の「表外」とは「常用漢字表+人名用漢字別表(その後の追加を含む)ですから、それに伴って多くの文字は「表内字」になってしまうわけ

  • by Anonymous Coward on 2003年01月16日 11時42分 (#236174)
    彼の団体がコードポイントの増 加だけで対処しなかったことについて、私はかなり複雑な気分である。
    コードポイントの増加で対処したら、包摂規準に首尾一貫性がなくなり、 ぐちゃぐちゃになります。
  • 昨年の報告書レベルでは例示字体の変更だけだった [srad.jp]のだが、追加を行うとは何考えているのかわからない。少量の変更でも、多量の変更でもレビジョンを含めて文字を管理/コード変更する方法が事実上ない以上、83 JIS と同じ愚行でしょう。
    • by Anonymous Coward on 2003年01月16日 14時44分 (#236288)
      83JIS は文字の入れ替えとかを行ったので大きな批判を浴びましたが、それ以降の 改訂でも文字の追加がちょっとづつ行われています。それに対する批判は あまり聞いたことがありません。
      親コメント
    • その報告書 [jsa.or.jp]の20ページには

      ただし,これらの字体がJIS X 0213にあることが望ましいので,JIS X 0213に,表外漢字字体表の字体を JIS X 0221 互換文字 (注) として追加し,表外漢字字体表の字体が使用できるようにする。 JIS X 0208 には上記互換文字は追加しない。

      (太字は原文ママ) として、下に一覧表まで挙げられています。今回決まったのは面区点位置だけ。ちなみに、この「JIS

    • うーん、それじゃあUnicodeが盛んに文字を追加してるのも愚行ですか? 字体の入れ換えとかもしてるし。

      # 本当に愚行かも知れないのでAC

  • by Anonymous Coward on 2003年01月16日 9時15分 (#236105)
    またコードセットを丸飲みするつもりでしょうかね?

    JIS規格表がJISコード自身で記述できないことをやり玉に挙げるぐらいだったら、
    両者はちゃんと丸飲みするべきだと思うんですがねぇ。:-p

    #そして…………という罠。
    • 他の選択肢として……
      1. 新字体を完全に無視する
      2. 新字体で他にない字体をGTかどこかに追加する

      現状でもJIS X 0208-1983は入っているけどJIS78は入ってないし
      今回の変更点では実際の使用現場で新旧どちらの意図で使用して
      いるかを識別することが事実上不可能なことを考えると丸呑みを
      してもメリットはないと思う。
    • ところで、TRON の文字コードは、どのように「包摂」を扱っているのでしょうか?

      たとえば、a1、a2、a3という漢字(字体)があって、それらはすべて同一の漢字の別字体だとみなすことも可能な場合、

      • a1 だけを表し、a2、a3 ではないような文字を表すコード
      • a2 だけを表し、a1、a3 ではないような文字を表すコード
      • a3 だけを表し、a1、a2 ではないような文字を表すコード
      • a1 と a2 を包摂した文字を表すコード
      • a1
      • 恐るべきことに包摂しないんですよね、TRONは。
        世の中に流通しているコードセットをまるまる最初から最後まで丸飲みするわけです。
        包摂云々は考えないんですよ。だから同じ字形があちこちにあるわけです。
        とんでもないと思いません??

        たとえばBTRONなんかはファイルシステムレベルでTRONコードですから、
        ファイル名(実身名と言いますが)を指定するときに、同じ字を指定した
        • それは、文字コード校正ツールがあれだけば済む話では?
          第一、現行の超漢字(B-right/V R4.X)では第一第二水準以上の
          単語登録がされていないから、自分で文字選んで入力する以上、
          文字コードがあっちいったりこっちいったりってのは無いでしょう。

          >システムは同じ文字と認識してくれないなんて言うことが起こりうるんですよ。
          そこら辺も流石にわかってはいるから、異体字揺らぎ検索 [chokanji.com]って
          機能もある訳だし、この機能を強化していくしかないでしょ。
          こういった機能があるのにそう書くのは、ちょっと乱暴すぎない?

          第一どんな文字コードを使おうと、ちゃんとした入力ツールと
          漢字校正機能が無いと話にならないでしょうに。
          親コメント
          • by Anonymous Coward

            第一、現行の超漢字(B-right/V R4.X)では第一第二水準以上の 単語登録がされていないから、自分で文字選んで入力する以上、 文字コードがあっちいったりこっちいったりってのは無いでしょう。

            つまり、現行の超漢字は機能不足で、超漢字の利点を十分に生かしきっていないということではないでしょうか。でもたぶん TRON や超漢字の目標としては、すべての漢字を自由に使えるシステムだと思います。で、問題となっているのは、その目標というか理想像そのものが持っている問題点です。

            そこら辺も流

            • 検索の結果、画面上では同じファイル名に見えるファイルが複数ヒットしたらどれが本物(というか目的とするファイル)か分からないし。これは Unicode にも言えることだけど。

              禿同.ASCII だとハイフンとマイナスの区別が付かないのがうれしいんだよね.是非 1 と I と l と | の区別が付かないコードを ISO に提案してください.おながいします

        •  包摂規準が異なる集合を複合する過程でまた包摂するってのは禁じ手ですけど? 0.45 を 2 回四捨五入して 1.00 にしちゃいけないのと同じ.
           その過ちを犯しちゃったのが Unicode で,あなたはその轍を TRON も踏めと言うの?

        • > 論外のアプローチ

          そのアプローチは本当にTRONのアプローチなの?
          #どうも、TRONでない全く別の何かをTRONと定義して批判する人が多いようなので確認。
          • >そのアプローチは本当にTRONのアプローチなの?
            >#どうも、TRONでない全く別の何かをTRONと定義して批判する人

            TRONのアプローチを知らない人間に、「TRONでない全く別の何かをTRONと定義して批判する……」
            なんていう言い方をされる筋合はないな。

            大丈夫か?おい?
    • つーか、この話題でTRON なんて忘れようよ。 ITRONのみ組み込みの世界で生き残っていることは認めるけど。 BTRONや超漢字なんて今やギャグのネタにもならん。。
  • by Anonymous Coward on 2003年01月16日 10時43分 (#236142)

    俺なんかは、字体の変更よりも、UCS変更のが影響でかいだろう とか思ってしまうんだが、そのへんはどうなんだろう?

    208 の範囲は入ってないのかな?(まだどの部分が変更に なるかチェックせずにに言ってる)もしそうなら 213 に 対応してるような環境はほとんど無いだろうから 影響は少ないか。仮にMSやAppleがJISX213 が出た時に さっくり対応してたら今回のは大変なことになってたかもね。

    • 今回の変更は213初出分のみ。
      初期のユニコードで208/212と中・台コードと統合されていたコードポイントに対し、最近中・台が日本の字体を別コードポイントに登録してきた分について、どのように処理するかの方針についての情報は聞こえてこない。
      どうするんだろうね。
      • 今の Unicode は、できの非常に悪い TRON コードを目指してますから。
        # TRON コードのできがいいとは思わないが Unicode よりはまし。
      • おお、そんなことが>別コードポイントに登録(藁
        詳細知りたいので、ソースきぼんぬ。
      • たぶん台湾の CNS11643 をソースとする文字じゃないかと想像します。 べつに「日本の字体」ということを狙ったわけじゃなくて、 台湾の文字コードの higher plane にたまたま日本で広く用いられている 字体があった、ということじゃないでしょうか。

        どちらにせよ、それはそのままだと ISO 10646 自身の包摂規準に違反するので、例外規定とかが設けられるのでしょうか? (でも、たとえば Unicode 1.0 の時代から存在する KS X 1001 互換

        • >(でも、たとえば Unicode 1.0 の時代から存在する KS X 1001 互換漢字について、これは互換性のためだけにしか使ってはいけない、という規定ってどこかにありましたっけ?)

          あれはCJK Compatibility Ideographsブロックですから、
          当然、互換性のためにしか使ってはいけません。
    • >俺なんかは、字体の変更よりも、UCS変更のが影響でかいだろう とか思ってしまうんだが、そのへんはどうなんだろう?

      変更されている文字はUCSへ登録申請中で JIS X 0213:2000では未確定だった文字みたいですね。

  • by Anonymous Coward on 2003年01月17日 22時29分 (#237596)
    表外漢字字体表ができてからの要求やら何やらを振り返ると、ここまで少ない変更に抑え込んだことには敬意を覚えざるを得ない。

    個人的には、「えーまた追加するの~」って感じだけど。

    # JIS X0213のフリーフォント製作者のみなさまに感謝&表敬

typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...