yasuokaの日記: IPAがMJ変体仮名のパブリックコメントを開始 62
日記 by
yasuoka
情報処理推進機構(IPA)は、文字情報基盤に変体仮名を追加すべく、MJ変体仮名299字(案)を公開した。国立国語研究所共同研究プロジェクト「文字環境のモデル化と社会言語科学への応用」で選定した変体仮名264字に、戸籍統一文字の変体仮名168字を加え、重複を取り除いて286字とした上、以下に示す11組は同一字形を複数の音に収録した結果、合計で299字となっている。
- MJ090002 = MJ090293
- MJ090028 = MJ090053
- MJ090039 = MJ090061
- MJ090059 = MJ090151
- MJ090110 = MJ090125
- MJ090121 = MJ090146
- MJ090130 = MJ090248
- MJ090205 = MJ090222
- MJ090214 = MJ090224 = MJ090298
- MJ090215 = MJ090223 = MJ090299
- MJ090233 = MJ090243
パブリックコメントは8月21日まで。
将来的展望 (スコア:5, 興味深い)
シンプルに考えると、問題は「フォントによってグリフ(形)が違う」のか「同一フォントでもグリフが違う」かだと思う。
逆に言うと、「惡(の変体仮名、以下略)」は「あ(『惡し』あし)」や「を(『嫌惡』けんを)」があるから、同じグリフで訓が違うのは理解できるだろうけれど、だとしたら、読みが違っても「惡」は「惡」なんであって、別の字であるという主張には無理がある。むしろ、同じ字に二通りの読み方があるのだろう。変体仮名は特殊な用例を強調するスタイル(字体)であって、用いられ方が違っても同じコードを振る方が筋がいい。つまり、実態として、「惡」という字には二つの音価があるんだから、「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない。変体仮名は音を表すためにあるんだから、本来は1つでなきゃいけない、というのはわかるけど、そうはなってないんだから仕方ないでしょ。
例えば、古文書をコードに起こす人(OCRでもいいけど)がいたとして、古文書の「惡」を見ただけでは音を決められない。そいつにわかるのは、「『惡』の変体仮名が書かれている」ということだけで、その音を「あ」か「を」か推測して決定するのはそれより高次な知的作業になる。こういう場合、コードを数字で見た人ですら、「あ」か「を」を決定することはできない。なぜなら、「惡(あ)」と「惡(を)」のコードを振り間違えていることはかなりありうる事態だから。結局、音だけが違う2つのコードを維持するメリットはほとんどない。
別の例を考えると、「s」と「ſ」は「同一フォントでもグリフが違う」から、どう考えても別のコードを振らざるを得ない(Unicodeで言うところのIVSみたいなサブセットでも良かったかもしれないが、とにかく区別が必要)。それは「あ」と「安(あ)」にも言えることで、概念的に99.9%同じだったとしても、「同一フォントでもグリフが違う」のだからどうしようもない。逆に、書かれている「惡(あ)」と「惡(を)」の違いを論じることに意味はない。同じ字に2つの読み方があるだけで、仮に2つのコードを用意しても、世に「誤用」を振り撒くだけに終わると思う。実際に運用すると、想像するのも寒気が走るほど間違いだらけになると思うよ。見た目じゃわからないんだし。
「分類できるものは違うコードを振りたい」っていう考え方はわからんでもないし、普通ならそれが安全策なんだろうけれど、今回ばっかりはあまり良い方向性だとは思えない。もし万が一コードを2つ振ってしまったら、将来「惡(『あ』でも『を』でもどちらでもいい)」という3番目のコードが必ず必要になる、と予言しよう。だって、それしか必要ないから。
Re:将来的展望 (スコア:1)
「日本語文字・表記史や日本史学等の分野で必要とされる学術用変体仮名」ともあるので、目的が文献の電子化でしょうか?
写真/映像としての保存では、検索ができないし、既存コードの単なる異字体と見なす事も出来ないという事?
見たところ、単なる異字体にしか見えないですが、、。
Re:将来的展望 (スコア:1)
「異体字」は結構範囲が広い概念ですね。
例えば、漢文調の文章で「新陰流一[乃]太刀【乃】至無刀取(しんかげりゅういちのたちないしむとうどり)」みたいなフレーズがあった時、この「[乃]」は、漢文ではなく日本語の助詞の「の」に他ならないわけですが、そういう場合、日本語であることを強調するために変体仮名が使われることが良くありました。日本語の文章で外来語を片仮名で書くのとちょうど反対ですね。さらに、同じ文章で漢文の「【乃】」と日本語の「[乃]」が同時に出ることがあります。つまり、筆者がいわば異体字を文脈で使い分けているわけです。それで、この特殊な異体字はかなり固有のパターンなので、一般的な意味での異体字とは異なるカテゴリに属しているわけですね。
同じ文章で、漢字の「乃」と変体仮名の「乃」が使い分けられている場合、この異体字には確実にコードを振っておかないと、電子化で情報の劣化が起こる、ということです。
さらに言うと、変体仮名は固有のグリフではないので、同じ単語に使われている変体仮名でも筆者の流儀によって字形が違います。ですから、変体仮名同士が異体字の関係にあるわけで、異体字という概念だけでは変体仮名を説明しきることはできないのです。字形が違っても同じ文字である、という認識まで含めて変体仮名です。漢文のニュアンスを変えて大和言葉であることを示すためだけの即興的な異体字が変体仮名、というあたりだと思います。上にのべたように表音文字と表意文字の差である異体字は区別しなければいけませんが、一方で、表音文字同士であれば異体字の同一視もしなければいけません。
変体仮名は活版の歴史があるので、その点でも重要であり、一般的な意味での漢字の異体字とは一線を画す存在です。
Re:将来的展望 (スコア:1)
そこまで言ったら、手書き文書をコード化すること自体に無理があるように聞こえちゃうね。
そういう用途の場合は実用上、文字列と画像を両方残すってことになるんじゃないかな。
Re: (スコア:0)
漢字と変体仮名を区別しなければならない理由は分かりますが、仮名と変体仮名を区別しなければならない理由は?
字形が違っても同じ表音文字同士として同一視しない理由は?
Re: (スコア:0)
たとえれば、通常の漢字で、音読みの漢音、唐音、呉音、訓読みで全部別のコードをふる、といえば確かにすごく筋が悪そう。
Re: (スコア:0)
とあるのでそもそも字体による考えは適切でない、従来の考えだと異字体だらけになってしまう、だから
と、字体ではなく音価×字母でコード化しましたって話でしょう。
Re: (スコア:0)
まず最初に言っておくが、フォント間の異体字とフォント内の異体字を混同したらいかんよ。
間違えるから。文字コードは字典と密接な関係にあるけど、やはり文字コードは字典じゃない。音を基準に考えることに別段の合理性がない。一方で、音を基準にしたら、変化を付けない限り間違いを防ぐことはできないが、その変化は元のグリフにはないから、完全な作字になって本末転倒になる。
同じ文章で漢字の「惡」と変体仮名の「惡」が使
Re: (スコア:0)
本当に?普通は「あ」と「を」は別物って方が多いと思うけど、同じのなんてあるの?
まずは書き間違えでできちゃった感じを消滅させましょう (スコア:3)
書き間違えでできちゃった漢字を無くすことから始めた方がいいでしょう
斎藤さんと渡辺さんを全て統一するところから始めないとね。
Re: (スコア:0)
感じ → 漢字 ね。
世の中、うっかりさんが多いから、やっぱり、どこかでリセットしないとね。
Re:まずは書き間違えでできちゃった(検閲削除)を消滅させましょう (スコア:0)
Re: (スコア:0)
それをスラドで提唱するのはなんかかなり虚しい気がしますね。
ページ作成が (スコア:1)
甘い
http://mojikiban.ipa.go.jp/mjih/ [ipa.go.jp]
ってか、なんでこのサイト重いの?
Re: (スコア:0)
こちらでは軽いですが…@Chromium on Ubuntu。
Re: (スコア:0)
軽いと気がつかないかな?
CSSがかなり遅れて読み込まれるのでサイト崩れが気になります。
Re: (スコア:0)
もしかして伝説の人間プロファイラの方ですか?
私はfirefoxを使っていますが、全体の処理時間は1秒ほどで、800ミリ秒ほどがpngのダウンロードと描画に使われ、100ミリ秒がcssのダウンロードですね。
たしかに、読み込み直後の一瞬はサイトが崩れているのが認識できます。
私はそれほど気になりませんが。
Re: (スコア:0)
ぷらら無制限LTE、およそ500kbps程度の回線を使ってるんだけど
やはり気になる点がありますね。
CSSというよりは、
最後の方で読み込んでる jquery-ui.min.js が 234kbytes なんだけど、
これがロードされない事には DOMContentLoaded イベントも発火しないし
もちろんjQueryUIを使ったカッコいいUIも初期化されないし、って事で
一瞬だけショボいモノが見えてしまうのかも知れぬわ。
Re: (スコア:0)
jquery-ui待ちで崩れてるのか。
もし変体仮名がUnicodeに採用されるとしたら (スコア:1)
2つ以上の同じ読みの文字の場合は「Hentai Kana Letter A-2」みたいにして、
1つの文字に2つ以上の文字があったら「Hentai Kana Letter A And Wo」っていう感じで。
/\ /\ /\
(・大・ )3
___/\___________________
Jody Wisternoffこそ至高。
- Tetsuya Hiragino
Re:もし変体仮名がUnicodeに採用されるとしたら (スコア:2)
HENTAIは別の意味で浸透してるので
いろいろアレな気がするデス。
Re: (スコア:0)
外国人「あいつらUnicodeにまでHentaiとかぶっ込んできやがった……」
凄い数 (スコア:0)
そんなにいっぱいあったんですなあ
「志」や「八」みたいな使い分けがはっかりしたのくらいしか意識してなかった
もういっそ戸籍をUTF-8に合わせてしまえ (スコア:0)
というのも本気で考えて欲しい
変な字使うなよ、この変体野郎!
Re: (スコア:0)
読み(ひらがな)で管理するとか。
漢字表記は印刷とか表示の補助としてのみ使う。
// 個人的には戸籍制度自体が面倒くさすぎるので要らんけどね・・・
Re: (スコア:0)
文化的な側面とかを除いて、今の制度の中で戸籍制度が必要な理由って主に相続先を血縁関係から推定するのがデフォルトになってるからだと思うけど、これを、遺言で指定した先にしか相続できない(血縁じゃなくても良い)様にすれば、血縁関係を追う必要が無くなって戸籍制度なくても良いんじゃない?
ただ、現状では戸籍制度が無いと相続でもめるのは必至なので、戸籍制度は必要。
Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
これを、遺言で指定した先にしか相続できない(血縁じゃなくても良い)様にすれば、血縁関係を追う必要が無くなって戸籍制度なくても良いんじゃない?
遺言を残さずに死んだ場合はどうする?
遺言義務化?
それはそれで色々問題がありそうだけど。
Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
相続を廃止する、ってのは一つの見識です。
しかし、その影響は考慮しておくべきでしょうね。
少なくとも、孤児や片親家庭の支援の充実は必要でしょうね。
親が死亡すると、家庭の資産が半分以下になったり、いきなり無一文になっちゃう可能性が、今よりずっと高いわけだから。
国庫に入った遺産を原資にするんですかね?
その他、人間の働く意欲なんかにどういう影響を与えるんでしょうね。
Re: (スコア:0)
文化を無視した立法は如何なものか。
まあ、遺言ないので国庫行きってのは喜ぶ人居ると思うけども。
Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
Re: (スコア:0)
戸籍は除籍されてから70年保管
住民登録は除票になってから5年保管
身分関係を公証するには5年じゃ短すぎるからもっと長期保存しないといけないけど、住民登録は隣町に越したとか同居してるけど世帯分離したとか、特に長期保存する必要もない情報が満載なので、必ずしも住民登録に全部寄せるのがいいとも言い切れないのですよ。
まあ、今は情報の保存コストが下がってますから今後議論の余地はあると思いますが。
Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
国際結婚の際の取り扱いとか、家族単位で管理する戸籍システムは結構複雑なので、個人ベースで管理するシステムに修正したほうがシンプルでいいような気がしますね。
Re: (スコア:0)
日本国籍の人=戸籍に記録されている人 という原則を知っていればそんなに複雑ということはないのではないですか?
Re: (スコア:0)
サイトウは斎藤、ワタナベは渡部または渡部が正しい。
いろんな字体があるのは役所の人間が馬鹿で書き間違え、登録し間違え。
他の字も同じ。役所もその名前の人間も間違いを素直に認めて、いっせいので統一させた方がよい。
言葉も文字も簡便な方に流れるのは乱れではなく洗練化であり自然な流れ。
そもそもいつの時代の日本語が正しいなんて決められない。
ならばジジババの懐古主義や固執を切り捨てて、将来のある人間のために英断すべき。
Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
> いろんな字体があるのは役所の人間が馬鹿で書き間違え、登録し間違え。
ムチャ言ってますね。
自己申告で登録した結果と思うけど。
手書きの時代は、なんでもありで、それでは困るからと制限したが、制限仕切れなかった結果。
ん、
> サイトウは斎藤、
簡便な方に流れるならば、「斉藤」でしょう。
あ、別字らしいですが、多分、多数派は区別できない。
いや、お隣の国のように政府が簡便な字体を使えと、強制すれば、簡単だけど、民主主義は面倒で手間のかかるもの。
Re:もういっそ戸籍をUTF-8に合わせてしまえ (スコア:1)
サイトウは斎藤、ワタナベは渡部または渡部が正しい。
なるほど。
しかし一方、
そもそもいつの時代の日本語が正しいなんて決められない。
と。
矛盾してない?
必ずしも正しいとは言えないのに、統一するのが正しい?
もう一歩整理して書いてくれれば納得できる気がするが。
Re: (スコア:0)
ソフトウェア全般、そういう古いものを供給側の判断優先でザクザク切り捨てていきたいもんだな。
Re: (スコア:0)
とりあえずstrcmpが0を返すようなcollationがあれば生データが多様でも問題ないと思うけどね。
Re: (スコア:0)
〃ゞ(同じ)をイコール判断出来たのは.NETだったかな?
検索や解析のこと考えたら、処理系次第で同じになったり違ったりというのは、余計な手間とバグの温床。
Re: (スコア:0)
> ワタナベは渡部または渡部が正しい。
ちがいがわかりません。
Re: (スコア:0)
それ、ものすごく失礼な事言ってるのは気付いてる?
だいたい、江戸時代から異体字なんだから間違いも糞もない。
まぁ、それはさておき、コンピュータ処理上はUnicodeに合わせるのはやぶさかではない。
それはそれとして正式な書体は商標登録と同様に図画で登録するようにすれば良い。
MJ変体仮面? (スコア:0)
違った
Unicodeに欲しいものはまだ沢山 (スコア:0)
変体仮名は大きな一歩。
しかし、まだまだUnicodeに無いものが沢山あるので、こちらも進めてほしいなぁ。
* わ行う
* や行い
* 合略仮名
* より多くの組文字
* 地図記号
* 画線法
* 小書きヲ (台湾語仮名)
* 琉球古字
* 香の図
* 神代文字
* 家紋
Re:Unicodeに欲しいものはまだ沢山 (スコア:1)
/\ /\ /\
(・大・ )3
___/\___________________
Jody Wisternoffこそ至高。
- Tetsuya Hiragino
Re: (スコア:0)
まだまだいくらでもこういう用途はあるだろうし、
Unicodeみたいな統一規格で決めて管理するってアーキテクチャじゃ
合意形成に至るまでの手間がかかりすぎて面倒。
そのくせ、大半の利用者には大した恩恵がない。
もっとライトウェイトにぱぱっと決めてコード化できる仕組みがほしいね。
Re: (スコア:0)
それだと方言がきつくなりそう。昔、女の子が書いた文章の語尾が全て「ゥ」ってなってたのを思い出した。
例:がんばってゥ
# Mac/MSのsymbolフォントの「❤」がshift-jisの「ゥ」と同じコード(0xA9)であるため
# MS symbolをインストールしていない環境ではハートマークが「ゥ」になる。
https://ja.wikipedia.org/wiki/Symbol [wikipedia.org]
Re: (スコア:0)
iモードの音符絵文字のコードとSoftBankのUNK絵文字のコードが同じ時代があってな。
例:がんばって(UNK)
#がんばれねぇ・・・
Re: (スコア:0)
WebFont使ってURI作ればコードになるんじゃね。
Re: (スコア:0)
TRONコード「呼んだ?」
草書 (スコア:0)
変体仮名の収録とか、まじに漢字の草書と区別がつかないのでやめて欲しい。