パスワードを忘れた? アカウント作成
12239634 journal
アナウンス

yasuokaの日記: IPAがMJ変体仮名のパブリックコメントを開始 62

日記 by yasuoka

情報処理推進機構(IPA)は、文字情報基盤に変体仮名を追加すべく、MJ変体仮名299字(案)を公開した。国立国語研究所共同研究プロジェクト「文字環境のモデル化と社会言語科学への応用」で選定した変体仮名264字に、戸籍統一文字の変体仮名168字を加え、重複を取り除いて286字とした上、以下に示す11組は同一字形を複数の音に収録した結果、合計で299字となっている。

  • MJ090002 = MJ090293
  • MJ090028 = MJ090053
  • MJ090039 = MJ090061
  • MJ090059 = MJ090151
  • MJ090110 = MJ090125
  • MJ090121 = MJ090146
  • MJ090130 = MJ090248
  • MJ090205 = MJ090222
  • MJ090214 = MJ090224 = MJ090298
  • MJ090215 = MJ090223 = MJ090299
  • MJ090233 = MJ090243

パブリックコメントは8月21日まで。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 将来的展望 (スコア:5, 興味深い)

    by Anonymous Coward on 2015年07月05日 16時05分 (#2842354)

    シンプルに考えると、問題は「フォントによってグリフ(形)が違う」のか「同一フォントでもグリフが違う」かだと思う。

    逆に言うと、「惡(の変体仮名、以下略)」は「あ(『惡し』あし)」や「を(『嫌惡』けんを)」があるから、同じグリフで訓が違うのは理解できるだろうけれど、だとしたら、読みが違っても「惡」は「惡」なんであって、別の字であるという主張には無理がある。むしろ、同じ字に二通りの読み方があるのだろう。変体仮名は特殊な用例を強調するスタイル(字体)であって、用いられ方が違っても同じコードを振る方が筋がいい。つまり、実態として、「惡」という字には二つの音価があるんだから、「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない。変体仮名は音を表すためにあるんだから、本来は1つでなきゃいけない、というのはわかるけど、そうはなってないんだから仕方ないでしょ。

    例えば、古文書をコードに起こす人(OCRでもいいけど)がいたとして、古文書の「惡」を見ただけでは音を決められない。そいつにわかるのは、「『惡』の変体仮名が書かれている」ということだけで、その音を「あ」か「を」か推測して決定するのはそれより高次な知的作業になる。こういう場合、コードを数字で見た人ですら、「あ」か「を」を決定することはできない。なぜなら、「惡(あ)」と「惡(を)」のコードを振り間違えていることはかなりありうる事態だから。結局、音だけが違う2つのコードを維持するメリットはほとんどない。

    別の例を考えると、「s」と「ſ」は「同一フォントでもグリフが違う」から、どう考えても別のコードを振らざるを得ない(Unicodeで言うところのIVSみたいなサブセットでも良かったかもしれないが、とにかく区別が必要)。それは「あ」と「安(あ)」にも言えることで、概念的に99.9%同じだったとしても、「同一フォントでもグリフが違う」のだからどうしようもない。逆に、書かれている「惡(あ)」と「惡(を)」の違いを論じることに意味はない。同じ字に2つの読み方があるだけで、仮に2つのコードを用意しても、世に「誤用」を振り撒くだけに終わると思う。実際に運用すると、想像するのも寒気が走るほど間違いだらけになると思うよ。見た目じゃわからないんだし。

    「分類できるものは違うコードを振りたい」っていう考え方はわからんでもないし、普通ならそれが安全策なんだろうけれど、今回ばっかりはあまり良い方向性だとは思えない。もし万が一コードを2つ振ってしまったら、将来「惡(『あ』でも『を』でもどちらでもいい)」という3番目のコードが必ず必要になる、と予言しよう。だって、それしか必要ないから。

    • by wood377 (46309) on 2015年07月05日 19時09分 (#2842418) 日記

      「日本語文字・表記史や日本史学等の分野で必要とされる学術用変体仮名」ともあるので、目的が文献の電子化でしょうか?
      写真/映像としての保存では、検索ができないし、既存コードの単なる異字体と見なす事も出来ないという事?
      見たところ、単なる異字体にしか見えないですが、、。

      親コメント
      • by Anonymous Coward on 2015年07月05日 21時17分 (#2842463)

        「異体字」は結構範囲が広い概念ですね。

        例えば、漢文調の文章で「新陰流一[乃]太刀【乃】至無刀取(しんかげりゅういちのたちないしむとうどり)」みたいなフレーズがあった時、この「[乃]」は、漢文ではなく日本語の助詞の「の」に他ならないわけですが、そういう場合、日本語であることを強調するために変体仮名が使われることが良くありました。日本語の文章で外来語を片仮名で書くのとちょうど反対ですね。さらに、同じ文章で漢文の「【乃】」と日本語の「[乃]」が同時に出ることがあります。つまり、筆者がいわば異体字を文脈で使い分けているわけです。それで、この特殊な異体字はかなり固有のパターンなので、一般的な意味での異体字とは異なるカテゴリに属しているわけですね。

        同じ文章で、漢字の「乃」と変体仮名の「乃」が使い分けられている場合、この異体字には確実にコードを振っておかないと、電子化で情報の劣化が起こる、ということです。

        さらに言うと、変体仮名は固有のグリフではないので、同じ単語に使われている変体仮名でも筆者の流儀によって字形が違います。ですから、変体仮名同士が異体字の関係にあるわけで、異体字という概念だけでは変体仮名を説明しきることはできないのです。字形が違っても同じ文字である、という認識まで含めて変体仮名です。漢文のニュアンスを変えて大和言葉であることを示すためだけの即興的な異体字が変体仮名、というあたりだと思います。上にのべたように表音文字と表意文字の差である異体字は区別しなければいけませんが、一方で、表音文字同士であれば異体字の同一視もしなければいけません。

        変体仮名は活版の歴史があるので、その点でも重要であり、一般的な意味での漢字の異体字とは一線を画す存在です。

        親コメント
        • by Ryo.F (3896) on 2015年07月06日 13時21分 (#2842730) 日記

          そこまで言ったら、手書き文書をコード化すること自体に無理があるように聞こえちゃうね。
          そういう用途の場合は実用上、文字列と画像を両方残すってことになるんじゃないかな。

          親コメント
        • by Anonymous Coward

          漢字と変体仮名を区別しなければならない理由は分かりますが、仮名と変体仮名を区別しなければならない理由は?
          字形が違っても同じ表音文字同士として同一視しない理由は?

    • by Anonymous Coward

      たとえれば、通常の漢字で、音読みの漢音、唐音、呉音、訓読みで全部別のコードをふる、といえば確かにすごく筋が悪そう。

    • by Anonymous Coward

      しかし、変体仮名における「崩し方」は必ずしも安定した物ではなく、形状のみに基づいて文字を同定し、標準化することは適切ではありません。

      とあるのでそもそも字体による考えは適切でない、従来の考えだと異字体だらけになってしまう、だから

      そこで、変体仮名の持つ「音価」つまり、「あ」「い」「う」。。。といった現代平仮名によって表現される「音」と、その変体仮名がどの漢字を字母としているか、つまり「音価」と「字母」との組に注目して符号化を行うこととしました。

      と、字体ではなく音価×字母でコード化しましたって話でしょう。

      「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない

      • by Anonymous Coward

        まず最初に言っておくが、フォント間の異体字とフォント内の異体字を混同したらいかんよ。

        音の一つ一つを表すのが仮名(変体仮名)では?そのための新ルールを作ってはいけない理由は?

        間違えるから。文字コードは字典と密接な関係にあるけど、やはり文字コードは字典じゃない。音を基準に考えることに別段の合理性がない。一方で、音を基準にしたら、変化を付けない限り間違いを防ぐことはできないが、その変化は元のグリフにはないから、完全な作字になって本末転倒になる。

        それは「惡(漢字)」で良いのでは?

        同じ文章で漢字の「惡」と変体仮名の「惡」が使

        • by Anonymous Coward

          「惡(あ)」と「惡(を)」はそういう意図が存在せず

          本当に?普通は「あ」と「を」は別物って方が多いと思うけど、同じのなんてあるの?

  • 書き間違えでできちゃった漢字を無くすことから始めた方がいいでしょう
    斎藤さんと渡辺さんを全て統一するところから始めないとね。

  • by Anonymous Coward on 2015年07月05日 16時59分 (#2842369)

    甘い
    http://mojikiban.ipa.go.jp/mjih/ [ipa.go.jp]

    ってか、なんでこのサイト重いの?

    • by Anonymous Coward

      こちらでは軽いですが…@Chromium on Ubuntu。

      • by Anonymous Coward

        軽いと気がつかないかな?
        CSSがかなり遅れて読み込まれるのでサイト崩れが気になります。

        • by Anonymous Coward

          もしかして伝説の人間プロファイラの方ですか?

          私はfirefoxを使っていますが、全体の処理時間は1秒ほどで、800ミリ秒ほどがpngのダウンロードと描画に使われ、100ミリ秒がcssのダウンロードですね。
          たしかに、読み込み直後の一瞬はサイトが崩れているのが認識できます。
          私はそれほど気になりませんが。

        • by Anonymous Coward

          ぷらら無制限LTE、およそ500kbps程度の回線を使ってるんだけど
          やはり気になる点がありますね。

          CSSというよりは、
          最後の方で読み込んでる jquery-ui.min.js が 234kbytes なんだけど、
          これがロードされない事には DOMContentLoaded イベントも発火しないし
          もちろんjQueryUIを使ったカッコいいUIも初期化されないし、って事で
          一瞬だけショボいモノが見えてしまうのかも知れぬわ。

          • by Anonymous Coward

            jquery-ui待ちで崩れてるのか。

  • 個人的なイメージとしては「Hentai Kana Letter A」とか。
    2つ以上の同じ読みの文字の場合は「Hentai Kana Letter A-2」みたいにして、
    1つの文字に2つ以上の文字があったら「Hentai Kana Letter A And Wo」っていう感じで。
    --
     /\ /\ /\
    (・大・  )3
    ___/\___________________
    Jody Wisternoffこそ至高。
    - Tetsuya Hiragino
  • by Anonymous Coward on 2015年07月05日 15時48分 (#2842350)

    そんなにいっぱいあったんですなあ
    「志」や「八」みたいな使い分けがはっかりしたのくらいしか意識してなかった

  • by Anonymous Coward on 2015年07月05日 16時04分 (#2842353)

    というのも本気で考えて欲しい
    変な字使うなよ、この変体野郎!

    • by Anonymous Coward

      読み(ひらがな)で管理するとか。
      漢字表記は印刷とか表示の補助としてのみ使う。

      // 個人的には戸籍制度自体が面倒くさすぎるので要らんけどね・・・

      • by Anonymous Coward

        文化的な側面とかを除いて、今の制度の中で戸籍制度が必要な理由って主に相続先を血縁関係から推定するのがデフォルトになってるからだと思うけど、これを、遺言で指定した先にしか相続できない(血縁じゃなくても良い)様にすれば、血縁関係を追う必要が無くなって戸籍制度なくても良いんじゃない?

        ただ、現状では戸籍制度が無いと相続でもめるのは必至なので、戸籍制度は必要。

        • これを、遺言で指定した先にしか相続できない(血縁じゃなくても良い)様にすれば、血縁関係を追う必要が無くなって戸籍制度なくても良いんじゃない?

          遺言を残さずに死んだ場合はどうする?
          遺言義務化?
          それはそれで色々問題がありそうだけど。

          親コメント
        • by Anonymous Coward

          文化を無視した立法は如何なものか。
          まあ、遺言ないので国庫行きってのは喜ぶ人居ると思うけども。

    • by Anonymous Coward

      サイトウは斎藤、ワタナベは渡部または渡部が正しい。
      いろんな字体があるのは役所の人間が馬鹿で書き間違え、登録し間違え。
      他の字も同じ。役所もその名前の人間も間違いを素直に認めて、いっせいので統一させた方がよい。

      言葉も文字も簡便な方に流れるのは乱れではなく洗練化であり自然な流れ。
      そもそもいつの時代の日本語が正しいなんて決められない。
      ならばジジババの懐古主義や固執を切り捨てて、将来のある人間のために英断すべき。

      • > いろんな字体があるのは役所の人間が馬鹿で書き間違え、登録し間違え。
        ムチャ言ってますね。
        自己申告で登録した結果と思うけど。
        手書きの時代は、なんでもありで、それでは困るからと制限したが、制限仕切れなかった結果。

        ん、
        > サイトウは斎藤、
        簡便な方に流れるならば、「斉藤」でしょう。
        あ、別字らしいですが、多分、多数派は区別できない。

        いや、お隣の国のように政府が簡便な字体を使えと、強制すれば、簡単だけど、民主主義は面倒で手間のかかるもの。

        親コメント
      • サイトウは斎藤、ワタナベは渡部または渡部が正しい。

        なるほど。
        しかし一方、

        そもそもいつの時代の日本語が正しいなんて決められない。

        と。
        矛盾してない?

        必ずしも正しいとは言えないのに、統一するのが正しい?

        もう一歩整理して書いてくれれば納得できる気がするが。

        親コメント
      • by Anonymous Coward

        ソフトウェア全般、そういう古いものを供給側の判断優先でザクザク切り捨てていきたいもんだな。

      • by Anonymous Coward

        とりあえずstrcmpが0を返すようなcollationがあれば生データが多様でも問題ないと思うけどね。

        • by Anonymous Coward

          〃ゞ(同じ)をイコール判断出来たのは.NETだったかな?
          検索や解析のこと考えたら、処理系次第で同じになったり違ったりというのは、余計な手間とバグの温床。

      • by Anonymous Coward

        > ワタナベは渡部または渡部が正しい。

        ちがいがわかりません。

      • by Anonymous Coward

        それ、ものすごく失礼な事言ってるのは気付いてる?
        だいたい、江戸時代から異体字なんだから間違いも糞もない。

        まぁ、それはさておき、コンピュータ処理上はUnicodeに合わせるのはやぶさかではない。
        それはそれとして正式な書体は商標登録と同様に図画で登録するようにすれば良い。

  • by Anonymous Coward on 2015年07月05日 16時19分 (#2842359)

    違った

  • by Anonymous Coward on 2015年07月05日 16時59分 (#2842368)

    変体仮名は大きな一歩。
    しかし、まだまだUnicodeに無いものが沢山あるので、こちらも進めてほしいなぁ。

    * わ行う
    * や行い
    * 合略仮名
    * より多くの組文字
    * 地図記号
    * 画線法
    * 小書きヲ (台湾語仮名)
    * 琉球古字
    * 香の図
    * 神代文字
    * 家紋

    • 私だったらテプラとかのラベルライターで使われている絵文字(Unicode未登録のもの)やnとuの合字とかが欲しいなぁ…
      --
       /\ /\ /\
      (・大・  )3
      ___/\___________________
      Jody Wisternoffこそ至高。
      - Tetsuya Hiragino
      親コメント
    • by Anonymous Coward

      まだまだいくらでもこういう用途はあるだろうし、
      Unicodeみたいな統一規格で決めて管理するってアーキテクチャじゃ
      合意形成に至るまでの手間がかかりすぎて面倒。
      そのくせ、大半の利用者には大した恩恵がない。

      もっとライトウェイトにぱぱっと決めてコード化できる仕組みがほしいね。

      • by Anonymous Coward

        それだと方言がきつくなりそう。昔、女の子が書いた文章の語尾が全て「ゥ」ってなってたのを思い出した。

        例:がんばってゥ

        # Mac/MSのsymbolフォントの「❤」がshift-jisの「ゥ」と同じコード(0xA9)であるため
        # MS symbolをインストールしていない環境ではハートマークが「ゥ」になる。

        https://ja.wikipedia.org/wiki/Symbol [wikipedia.org]

        • by Anonymous Coward

          iモードの音符絵文字のコードとSoftBankのUNK絵文字のコードが同じ時代があってな。

          例:がんばって(UNK)

          #がんばれねぇ・・・

      • by Anonymous Coward

        WebFont使ってURI作ればコードになるんじゃね。

    • by Anonymous Coward

      TRONコード「呼んだ?」

  • by Anonymous Coward on 2015年07月06日 11時17分 (#2842654)

    変体仮名の収録とか、まじに漢字の草書と区別がつかないのでやめて欲しい。

typodupeerror

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

読み込み中...