IPAがMJ変体仮名のパブリックコメントを開始 | yasuokaの日記

yasuokaの日記： IPAがMJ変体仮名のパブリックコメントを開始 62

日記 by yasuoka 2015年07月01日 13時18分

情報処理推進機構(IPA)は、文字情報基盤に変体仮名を追加すべく、MJ変体仮名299字(案)を公開した。国立国語研究所共同研究プロジェクト「文字環境のモデル化と社会言語科学への応用」で選定した変体仮名264字に、戸籍統一文字の変体仮名168字を加え、重複を取り除いて286字とした上、以下に示す11組は同一字形を複数の音に収録した結果、合計で299字となっている。

MJ090002 = MJ090293
MJ090028 = MJ090053
MJ090039 = MJ090061
MJ090059 = MJ090151
MJ090110 = MJ090125
MJ090121 = MJ090146
MJ090130 = MJ090248
MJ090205 = MJ090222
MJ090214 = MJ090224 = MJ090298
MJ090215 = MJ090223 = MJ090299
MJ090233 = MJ090243

パブリックコメントは8月21日まで。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索62コメント Log In/Create an Account

将来的展望 (スコア:5, 興味深い)

by Anonymous Coward on 2015年07月05日 16時05分 (#2842354)

シンプルに考えると、問題は「フォントによってグリフ(形)が違う」のか「同一フォントでもグリフが違う」かだと思う。
逆に言うと、「惡(の変体仮名、以下略)」は「あ(『惡し』あし)」や「を(『嫌惡』けんを)」があるから、同じグリフで訓が違うのは理解できるだろうけれど、だとしたら、読みが違っても「惡」は「惡」なんであって、別の字であるという主張には無理がある。むしろ、同じ字に二通りの読み方があるのだろう。変体仮名は特殊な用例を強調するスタイル(字体)であって、用いられ方が違っても同じコードを振る方が筋がいい。つまり、実態として、「惡」という字には二つの音価があるんだから、「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない。変体仮名は音を表すためにあるんだから、本来は1つでなきゃいけない、というのはわかるけど、そうはなってないんだから仕方ないでしょ。
例えば、古文書をコードに起こす人(OCRでもいいけど)がいたとして、古文書の「惡」を見ただけでは音を決められない。そいつにわかるのは、「『惡』の変体仮名が書かれている」ということだけで、その音を「あ」か「を」か推測して決定するのはそれより高次な知的作業になる。こういう場合、コードを数字で見た人ですら、「あ」か「を」を決定することはできない。なぜなら、「惡(あ)」と「惡(を)」のコードを振り間違えていることはかなりありうる事態だから。結局、音だけが違う2つのコードを維持するメリットはほとんどない。
別の例を考えると、「s」と「ſ」は「同一フォントでもグリフが違う」から、どう考えても別のコードを振らざるを得ない(Unicodeで言うところのIVSみたいなサブセットでも良かったかもしれないが、とにかく区別が必要)。それは「あ」と「安(あ)」にも言えることで、概念的に99.9%同じだったとしても、「同一フォントでもグリフが違う」のだからどうしようもない。逆に、書かれている「惡(あ)」と「惡(を)」の違いを論じることに意味はない。同じ字に2つの読み方があるだけで、仮に2つのコードを用意しても、世に「誤用」を振り撒くだけに終わると思う。実際に運用すると、想像するのも寒気が走るほど間違いだらけになると思うよ。見た目じゃわからないんだし。
「分類できるものは違うコードを振りたい」っていう考え方はわからんでもないし、普通ならそれが安全策なんだろうけれど、今回ばっかりはあまり良い方向性だとは思えない。もし万が一コードを2つ振ってしまったら、将来「惡(『あ』でも『を』でもどちらでもいい)」という3番目のコードが必ず必要になる、と予言しよう。だって、それしか必要ないから。
- Re:将来的展望 (スコア:1)
  
  by wood377 (46309) on 2015年07月05日 19時09分 (#2842418) 日記
  
  「日本語文字・表記史や日本史学等の分野で必要とされる学術用変体仮名」ともあるので、目的が文献の電子化でしょうか?
  写真/映像としての保存では、検索ができないし、既存コードの単なる異字体と見なす事も出来ないという事?
  見たところ、単なる異字体にしか見えないですが、、。
  
  シェア
  
  親コメント
  - Re:将来的展望 (スコア:1)
    
    by Anonymous Coward on 2015年07月05日 21時17分 (#2842463)
    
    「異体字」は結構範囲が広い概念ですね。
    例えば、漢文調の文章で「新陰流一[乃]太刀【乃】至無刀取(しんかげりゅういちのたちないしむとうどり)」みたいなフレーズがあった時、この「[乃]」は、漢文ではなく日本語の助詞の「の」に他ならないわけですが、そういう場合、日本語であることを強調するために変体仮名が使われることが良くありました。日本語の文章で外来語を片仮名で書くのとちょうど反対ですね。さらに、同じ文章で漢文の「【乃】」と日本語の「[乃]」が同時に出ることがあります。つまり、筆者がいわば異体字を文脈で使い分けているわけです。それで、この特殊な異体字はかなり固有のパターンなので、一般的な意味での異体字とは異なるカテゴリに属しているわけですね。
    同じ文章で、漢字の「乃」と変体仮名の「乃」が使い分けられている場合、この異体字には確実にコードを振っておかないと、電子化で情報の劣化が起こる、ということです。
    さらに言うと、変体仮名は固有のグリフではないので、同じ単語に使われている変体仮名でも筆者の流儀によって字形が違います。ですから、変体仮名同士が異体字の関係にあるわけで、異体字という概念だけでは変体仮名を説明しきることはできないのです。字形が違っても同じ文字である、という認識まで含めて変体仮名です。漢文のニュアンスを変えて大和言葉であることを示すためだけの即興的な異体字が変体仮名、というあたりだと思います。上にのべたように表音文字と表意文字の差である異体字は区別しなければいけませんが、一方で、表音文字同士であれば異体字の同一視もしなければいけません。
    変体仮名は活版の歴史があるので、その点でも重要であり、一般的な意味での漢字の異体字とは一線を画す存在です。
    
    シェア
    
    親コメント
    - Re:将来的展望 (スコア:1)
      
      by Ryo.F (3896) on 2015年07月06日 13時21分 (#2842730) 日記
      
      そこまで言ったら、手書き文書をコード化すること自体に無理があるように聞こえちゃうね。
      そういう用途の場合は実用上、文字列と画像を両方残すってことになるんじゃないかな。
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      漢字と変体仮名を区別しなければならない理由は分かりますが、仮名と変体仮名を区別しなければならない理由は？
      字形が違っても同じ表音文字同士として同一視しない理由は？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  たとえれば、通常の漢字で、音読みの漢音、唐音、呉音、訓読みで全部別のコードをふる、といえば確かにすごく筋が悪そう。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  しかし、変体仮名における「崩し方」は必ずしも安定した物ではなく、形状のみに基づいて文字を同定し、標準化することは適切ではありません。
  とあるのでそもそも字体による考えは適切でない、従来の考えだと異字体だらけになってしまう、だから
  そこで、変体仮名の持つ「音価」つまり、「あ」「い」「う」。。。といった現代平仮名によって表現される「音」と、その変体仮名がどの漢字を字母としているか、つまり「音価」と「字母」との組に注目して符号化を行うこととしました。
  と、字体ではなく音価×字母でコード化しましたって話でしょう。
  「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    まず最初に言っておくが、フォント間の異体字とフォント内の異体字を混同したらいかんよ。
    音の一つ一つを表すのが仮名（変体仮名）では？そのための新ルールを作ってはいけない理由は？
    間違えるから。文字コードは字典と密接な関係にあるけど、やはり文字コードは字典じゃない。音を基準に考えることに別段の合理性がない。一方で、音を基準にしたら、変化を付けない限り間違いを防ぐことはできないが、その変化は元のグリフにはないから、完全な作字になって本末転倒になる。
    それは「惡(漢字)」で良いのでは？
    同じ文章で漢字の「惡」と変体仮名の「惡」が使
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      「惡(あ)」と「惡(を)」はそういう意図が存在せず
      本当に？普通は「あ」と「を」は別物って方が多いと思うけど、同じのなんてあるの？
まずは書き間違えでできちゃった感じを消滅させましょう (スコア:3)

by suezo (2881) on 2015年07月06日 1時50分 (#2842559) 日記

書き間違えでできちゃった漢字を無くすことから始めた方がいいでしょう
斎藤さんと渡辺さんを全て統一するところから始めないとね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  感じ → 漢字ね。
  世の中、うっかりさんが多いから、やっぱり、どこかでリセットしないとね。
- Re:まずは書き間違えでできちゃった(検閲削除)を消滅させましょう (スコア:0)
  
  by Anonymous Coward
  
  まずは第一歩から
- Re: (スコア:0)
  
  by Anonymous Coward
  
  それをスラドで提唱するのはなんかかなり虚しい気がしますね。
ページ作成が (スコア:1)

by Anonymous Coward on 2015年07月05日 16時59分 (#2842369)

甘い
http://mojikiban.ipa.go.jp/mjih/ [ipa.go.jp]
ってか、なんでこのサイト重いの？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  こちらでは軽いですが…@Chromium on Ubuntu。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    軽いと気がつかないかな？
    CSSがかなり遅れて読み込まれるのでサイト崩れが気になります。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      もしかして伝説の人間プロファイラの方ですか？
      私はfirefoxを使っていますが、全体の処理時間は1秒ほどで、800ミリ秒ほどがpngのダウンロードと描画に使われ、100ミリ秒がcssのダウンロードですね。
      たしかに、読み込み直後の一瞬はサイトが崩れているのが認識できます。
      私はそれほど気になりませんが。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      ぷらら無制限LTE、およそ500kbps程度の回線を使ってるんだけど
      やはり気になる点がありますね。
      CSSというよりは、
      最後の方で読み込んでる jquery-ui.min.js が 234kbytes なんだけど、
      これがロードされない事には DOMContentLoaded イベントも発火しないし
      もちろんjQueryUIを使ったカッコいいUIも初期化されないし、って事で
      一瞬だけショボいモノが見えてしまうのかも知れぬわ。
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        jquery-ui待ちで崩れてるのか。
もし変体仮名がUnicodeに採用されるとしたら (スコア:1)

by Fagnux (47265) on 2015年07月05日 18時36分 (#2842406) ホームページ日記

個人的なイメージとしては「Hentai Kana Letter A」とか。
2つ以上の同じ読みの文字の場合は「Hentai Kana Letter A-2」みたいにして、
1つの文字に2つ以上の文字があったら「Hentai Kana Letter A And Wo」っていう感じで。

--
　/\　/\　/\
（・大・　　)3
___/\___________________
Jody Wisternoffこそ至高。
- Tetsuya Hiragino
- Re:もし変体仮名がUnicodeに採用されるとしたら (スコア:2)
  
  by backyarD (36899) on 2015年07月06日 11時53分 (#2842668) 日記
  
  HENTAIは別の意味で浸透してるので
  いろいろアレな気がするデス。
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  外国人「あいつらUnicodeにまでHentaiとかぶっ込んできやがった……」
凄い数 (スコア:0)

by Anonymous Coward on 2015年07月05日 15時48分 (#2842350)

そんなにいっぱいあったんですなあ
「志」や「八」みたいな使い分けがはっかりしたのくらいしか意識してなかった
もういっそ戸籍をUTF-8に合わせてしまえ (スコア:0)

by Anonymous Coward on 2015年07月05日 16時04分 (#2842353)

というのも本気で考えて欲しい
変な字使うなよ、この変体野郎！
- Re: (スコア:0)
  
  by Anonymous Coward
  
  読み(ひらがな)で管理するとか。
  漢字表記は印刷とか表示の補助としてのみ使う。
  // 個人的には戸籍制度自体が面倒くさすぎるので要らんけどね・・・
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    文化的な側面とかを除いて、今の制度の中で戸籍制度が必要な理由って主に相続先を血縁関係から推定するのがデフォルトになってるからだと思うけど、これを、遺言で指定した先にしか相続できない(血縁じゃなくても良い)様にすれば、血縁関係を追う必要が無くなって戸籍制度なくても良いんじゃない？
    ただ、現状では戸籍制度が無いと相続でもめるのは必至なので、戸籍制度は必要。
    - Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
      
      by Ryo.F (3896) on 2015年07月06日 13時12分 (#2842720) 日記
      
      これを、遺言で指定した先にしか相続できない(血縁じゃなくても良い)様にすれば、血縁関係を追う必要が無くなって戸籍制度なくても良いんじゃない？
      遺言を残さずに死んだ場合はどうする?
      遺言義務化?
      それはそれで色々問題がありそうだけど。
      
      シェア
      
      親コメント
      - Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
        
        by Ryo.F (3896) on 2015年07月06日 21時26分 (#2843035) 日記
        
        相続を廃止する、ってのは一つの見識です。
        しかし、その影響は考慮しておくべきでしょうね。
        少なくとも、孤児や片親家庭の支援の充実は必要でしょうね。
        親が死亡すると、家庭の資産が半分以下になったり、いきなり無一文になっちゃう可能性が、今よりずっと高いわけだから。
        国庫に入った遺産を原資にするんですかね?
        その他、人間の働く意欲なんかにどういう影響を与えるんでしょうね。
        
        シェア
        
        親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      文化を無視した立法は如何なものか。
      まあ、遺言ないので国庫行きってのは喜ぶ人居ると思うけども。
  - - Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
      
      by minemo (41273) on 2015年07月05日 16時48分 (#2842364) 日記
      
      住民登録だけでいいと思うが
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        戸籍は除籍されてから70年保管
        住民登録は除票になってから5年保管
        身分関係を公証するには5年じゃ短すぎるからもっと長期保存しないといけないけど、住民登録は隣町に越したとか同居してるけど世帯分離したとか、特に長期保存する必要もない情報が満載なので、必ずしも住民登録に全部寄せるのがいいとも言い切れないのですよ。
        まあ、今は情報の保存コストが下がってますから今後議論の余地はあると思いますが。
        
        Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
        
        by nim (10479) on 2015年07月05日 17時35分 (#2842387)
        
        国際結婚の際の取り扱いとか、家族単位で管理する戸籍システムは結構複雑なので、個人ベースで管理するシステムに修正したほうがシンプルでいいような気がしますね。
        
        シェア
        
        親コメント
        
        Re: (スコア:0)
        
        by Anonymous Coward
        
        日本国籍の人＝戸籍に記録されている人　という原則を知っていればそんなに複雑ということはないのではないですか？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  サイトウは斎藤、ワタナベは渡部または渡部が正しい。
  いろんな字体があるのは役所の人間が馬鹿で書き間違え、登録し間違え。
  他の字も同じ。役所もその名前の人間も間違いを素直に認めて、いっせいので統一させた方がよい。
  言葉も文字も簡便な方に流れるのは乱れではなく洗練化であり自然な流れ。
  そもそもいつの時代の日本語が正しいなんて決められない。
  ならばジジババの懐古主義や固執を切り捨てて、将来のある人間のために英断すべき。
  - Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
    
    by wood377 (46309) on 2015年07月05日 19時34分 (#2842427) 日記
    
    > いろんな字体があるのは役所の人間が馬鹿で書き間違え、登録し間違え。
    ムチャ言ってますね。
    自己申告で登録した結果と思うけど。
    手書きの時代は、なんでもありで、それでは困るからと制限したが、制限仕切れなかった結果。
    ん、
    > サイトウは斎藤、
    簡便な方に流れるならば、「斉藤」でしょう。
    あ、別字らしいですが、多分、多数派は区別できない。
    いや、お隣の国のように政府が簡便な字体を使えと、強制すれば、簡単だけど、民主主義は面倒で手間のかかるもの。
    
    シェア
    
    親コメント
  - Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
    
    by Ryo.F (3896) on 2015年07月06日 13時17分 (#2842727) 日記
    
    サイトウは斎藤、ワタナベは渡部または渡部が正しい。
    なるほど。
    しかし一方、
    そもそもいつの時代の日本語が正しいなんて決められない。
    と。
    矛盾してない?
    必ずしも正しいとは言えないのに、統一するのが正しい?
    もう一歩整理して書いてくれれば納得できる気がするが。
    
    シェア
    
    親コメント
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    ソフトウェア全般、そういう古いものを供給側の判断優先でザクザク切り捨てていきたいもんだな。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    とりあえずstrcmpが0を返すようなcollationがあれば生データが多様でも問題ないと思うけどね。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      〃ゞ（同じ）をイコール判断出来たのは.NETだったかな？
      検索や解析のこと考えたら、処理系次第で同じになったり違ったりというのは、余計な手間とバグの温床。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    > ワタナベは渡部または渡部が正しい。
    ちがいがわかりません。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    それ、ものすごく失礼な事言ってるのは気付いてる？
    だいたい、江戸時代から異体字なんだから間違いも糞もない。
    まぁ、それはさておき、コンピュータ処理上はUnicodeに合わせるのはやぶさかではない。
    それはそれとして正式な書体は商標登録と同様に図画で登録するようにすれば良い。
MJ変体仮面？ (スコア:0)

by Anonymous Coward on 2015年07月05日 16時19分 (#2842359)

違った
Unicodeに欲しいものはまだ沢山 (スコア:0)

by Anonymous Coward on 2015年07月05日 16時59分 (#2842368)

変体仮名は大きな一歩。
しかし、まだまだUnicodeに無いものが沢山あるので、こちらも進めてほしいなぁ。
* わ行う
* や行い
* 合略仮名
* より多くの組文字
* 地図記号
* 画線法
* 小書きヲ (台湾語仮名)
* 琉球古字
* 香の図
* 神代文字
* 家紋
- Re:Unicodeに欲しいものはまだ沢山 (スコア:1)
  
  by Fagnux (47265) on 2015年07月05日 18時22分 (#2842401) ホームページ日記
  
  私だったらテプラとかのラベルライターで使われている絵文字(Unicode未登録のもの)やnとuの合字とかが欲しいなぁ…
  
  --
  　/\　/\　/\
  （・大・　　)3
  ___/\___________________
  Jody Wisternoffこそ至高。
  - Tetsuya Hiragino
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  まだまだいくらでもこういう用途はあるだろうし、
  Unicodeみたいな統一規格で決めて管理するってアーキテクチャじゃ
  合意形成に至るまでの手間がかかりすぎて面倒。
  そのくせ、大半の利用者には大した恩恵がない。
  もっとライトウェイトにぱぱっと決めてコード化できる仕組みがほしいね。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    それだと方言がきつくなりそう。昔、女の子が書いた文章の語尾が全て「ｩ」ってなってたのを思い出した。
    例：がんばってｩ
    # Mac/MSのsymbolフォントの「❤」がshift-jisの「ｩ」と同じコード(0xA9)であるため
    # MS symbolをインストールしていない環境ではハートマークが「ｩ」になる。
    https://ja.wikipedia.org/wiki/Symbol [wikipedia.org]
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      iモードの音符絵文字のコードとSoftBankのUNK絵文字のコードが同じ時代があってな。
      例：がんばって(UNK)
      ＃がんばれねぇ・・・
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    WebFont使ってURI作ればコードになるんじゃね。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  TRONコード「呼んだ?」
草書 (スコア:0)

by Anonymous Coward on 2015年07月06日 11時17分 (#2842654)

変体仮名の収録とか、まじに漢字の草書と区別がつかないのでやめて欲しい。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

IPAがMJ変体仮名の意見募集を開始 More ログイン

将来的展望 (スコア:5, 興味深い)

Re:将来的展望 (スコア:1)

Re:将来的展望 (スコア:1)

Re:将来的展望 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

まずは書き間違えでできちゃった感じを消滅させましょう (スコア:3)

Re: (スコア:0)

Re:まずは書き間違えでできちゃった(検閲削除)を消滅させましょう (スコア:0)

Re: (スコア:0)

ページ作成が (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

もし変体仮名がUnicodeに採用されるとしたら (スコア:1)

Re:もし変体仮名がUnicodeに採用されるとしたら (スコア:2)

Re: (スコア:0)

凄い数 (スコア:0)

もういっそ戸籍をUTF-8に合わせてしまえ (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)

Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)

Re: (スコア:0)

Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)

Re: (スコア:0)

Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)

Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

MJ変体仮面？ (スコア:0)

Unicodeに欲しいものはまだ沢山 (スコア:0)

Re:Unicodeに欲しいものはまだ沢山 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

草書 (スコア:0)