アカウント名:
パスワード:
シンプルに考えると、問題は「フォントによってグリフ(形)が違う」のか「同一フォントでもグリフが違う」かだと思う。
逆に言うと、「惡(の変体仮名、以下略)」は「あ(『惡し』あし)」や「を(『嫌惡』けんを)」があるから、同じグリフで訓が違うのは理解できるだろうけれど、だとしたら、読みが違っても「惡」は「惡」なんであって、別の字であるという主張には無理がある。むしろ、同じ字に二通りの読み方があるのだろう。変体仮名は特殊な用例を強調するスタイル(字体)であって、用いられ方が違っても同じコードを振る方が筋がいい。つまり、実態として、「惡」という字には二つの音価があるんだから、「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない。変体仮名は音を表すためにあるんだから、本来は1つでなきゃいけない、というのはわかるけど、そうはなってないんだから仕方ないでしょ。
例えば、古文書をコードに起こす人(OCRでもいいけど)がいたとして、古文書の「惡」を見ただけでは音を決められない。そいつにわかるのは、「『惡』の変体仮名が書かれている」ということだけで、その音を「あ」か「を」か推測して決定するのはそれより高次な知的作業になる。こういう場合、コードを数字で見た人ですら、「あ」か「を」を決定することはできない。なぜなら、「惡(あ)」と「惡(を)」のコードを振り間違えていることはかなりありうる事態だから。結局、音だけが違う2つのコードを維持するメリットはほとんどない。
別の例を考えると、「s」と「ſ」は「同一フォントでもグリフが違う」から、どう考えても別のコードを振らざるを得ない(Unicodeで言うところのIVSみたいなサブセットでも良かったかもしれないが、とにかく区別が必要)。それは「あ」と「安(あ)」にも言えることで、概念的に99.9%同じだったとしても、「同一フォントでもグリフが違う」のだからどうしようもない。逆に、書かれている「惡(あ)」と「惡(を)」の違いを論じることに意味はない。同じ字に2つの読み方があるだけで、仮に2つのコードを用意しても、世に「誤用」を振り撒くだけに終わると思う。実際に運用すると、想像するのも寒気が走るほど間違いだらけになると思うよ。見た目じゃわからないんだし。
「分類できるものは違うコードを振りたい」っていう考え方はわからんでもないし、普通ならそれが安全策なんだろうけれど、今回ばっかりはあまり良い方向性だとは思えない。もし万が一コードを2つ振ってしまったら、将来「惡(『あ』でも『を』でもどちらでもいい)」という3番目のコードが必ず必要になる、と予言しよう。だって、それしか必要ないから。
「日本語文字・表記史や日本史学等の分野で必要とされる学術用変体仮名」ともあるので、目的が文献の電子化でしょうか?写真/映像としての保存では、検索ができないし、既存コードの単なる異字体と見なす事も出来ないという事?見たところ、単なる異字体にしか見えないですが、、。
「異体字」は結構範囲が広い概念ですね。
例えば、漢文調の文章で「新陰流一[乃]太刀【乃】至無刀取(しんかげりゅういちのたちないしむとうどり)」みたいなフレーズがあった時、この「[乃]」は、漢文ではなく日本語の助詞の「の」に他ならないわけですが、そういう場合、日本語であることを強調するために変体仮名が使われることが良くありました。日本語の文章で外来語を片仮名で書くのとちょうど反対ですね。さらに、同じ文章で漢文の「【乃】」と日本語の「[乃]」が同時に出ることがあります。つまり、筆者がいわば異体字を文脈で使い分けているわけです。それで、この特殊な異体字はかなり固有のパターンなので、一般的な意味での異体字とは異なるカテゴリに属しているわけですね。
同じ文章で、漢字の「乃」と変体仮名の「乃」が使い分けられている場合、この異体字には確実にコードを振っておかないと、電子化で情報の劣化が起こる、ということです。
さらに言うと、変体仮名は固有のグリフではないので、同じ単語に使われている変体仮名でも筆者の流儀によって字形が違います。ですから、変体仮名同士が異体字の関係にあるわけで、異体字という概念だけでは変体仮名を説明しきることはできないのです。字形が違っても同じ文字である、という認識まで含めて変体仮名です。漢文のニュアンスを変えて大和言葉であることを示すためだけの即興的な異体字が変体仮名、というあたりだと思います。上にのべたように表音文字と表意文字の差である異体字は区別しなければいけませんが、一方で、表音文字同士であれば異体字の同一視もしなければいけません。
変体仮名は活版の歴史があるので、その点でも重要であり、一般的な意味での漢字の異体字とは一線を画す存在です。
そこまで言ったら、手書き文書をコード化すること自体に無理があるように聞こえちゃうね。そういう用途の場合は実用上、文字列と画像を両方残すってことになるんじゃないかな。
漢字と変体仮名を区別しなければならない理由は分かりますが、仮名と変体仮名を区別しなければならない理由は?字形が違っても同じ表音文字同士として同一視しない理由は?
たとえれば、通常の漢字で、音読みの漢音、唐音、呉音、訓読みで全部別のコードをふる、といえば確かにすごく筋が悪そう。
しかし、変体仮名における「崩し方」は必ずしも安定した物ではなく、形状のみに基づいて文字を同定し、標準化することは適切ではありません。
とあるのでそもそも字体による考えは適切でない、従来の考えだと異字体だらけになってしまう、だから
そこで、変体仮名の持つ「音価」つまり、「あ」「い」「う」。。。といった現代平仮名によって表現される「音」と、その変体仮名がどの漢字を字母としているか、つまり「音価」と「字母」との組に注目して符号化を行うこととしました。
と、字体ではなく音価×字母でコード化しましたって話でしょう。
「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない
まず最初に言っておくが、フォント間の異体字とフォント内の異体字を混同したらいかんよ。
音の一つ一つを表すのが仮名(変体仮名)では?そのための新ルールを作ってはいけない理由は?
間違えるから。文字コードは字典と密接な関係にあるけど、やはり文字コードは字典じゃない。音を基準に考えることに別段の合理性がない。一方で、音を基準にしたら、変化を付けない限り間違いを防ぐことはできないが、その変化は元のグリフにはないから、完全な作字になって本末転倒になる。
それは「惡(漢字)」で良いのでは?
同じ文章で漢字の「惡」と変体仮名の「惡」が使
「惡(あ)」と「惡(を)」はそういう意図が存在せず
本当に?普通は「あ」と「を」は別物って方が多いと思うけど、同じのなんてあるの?
なるほどわかった。「ルビ」機能をつければいいんだな。
Unicodeにルビを提案ってのはどうだろ?発音記号として考えれば世界中で使えることでしょう…。
ついでに、注釈機能もつけちゃおう。そうすれば、その文字を使った意図も説明できて便利だね!
※別途マークアップしろって話に…w
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
UNIXはただ死んだだけでなく、本当にひどい臭いを放ち始めている -- あるソフトウェアエンジニア
将来的展望 (スコア:5, 興味深い)
シンプルに考えると、問題は「フォントによってグリフ(形)が違う」のか「同一フォントでもグリフが違う」かだと思う。
逆に言うと、「惡(の変体仮名、以下略)」は「あ(『惡し』あし)」や「を(『嫌惡』けんを)」があるから、同じグリフで訓が違うのは理解できるだろうけれど、だとしたら、読みが違っても「惡」は「惡」なんであって、別の字であるという主張には無理がある。むしろ、同じ字に二通りの読み方があるのだろう。変体仮名は特殊な用例を強調するスタイル(字体)であって、用いられ方が違っても同じコードを振る方が筋がいい。つまり、実態として、「惡」という字には二つの音価があるんだから、「変体仮名は仮名だから対応する音は一つ」という思想をルールとして確立させることはできない。変体仮名は音を表すためにあるんだから、本来は1つでなきゃいけない、というのはわかるけど、そうはなってないんだから仕方ないでしょ。
例えば、古文書をコードに起こす人(OCRでもいいけど)がいたとして、古文書の「惡」を見ただけでは音を決められない。そいつにわかるのは、「『惡』の変体仮名が書かれている」ということだけで、その音を「あ」か「を」か推測して決定するのはそれより高次な知的作業になる。こういう場合、コードを数字で見た人ですら、「あ」か「を」を決定することはできない。なぜなら、「惡(あ)」と「惡(を)」のコードを振り間違えていることはかなりありうる事態だから。結局、音だけが違う2つのコードを維持するメリットはほとんどない。
別の例を考えると、「s」と「ſ」は「同一フォントでもグリフが違う」から、どう考えても別のコードを振らざるを得ない(Unicodeで言うところのIVSみたいなサブセットでも良かったかもしれないが、とにかく区別が必要)。それは「あ」と「安(あ)」にも言えることで、概念的に99.9%同じだったとしても、「同一フォントでもグリフが違う」のだからどうしようもない。逆に、書かれている「惡(あ)」と「惡(を)」の違いを論じることに意味はない。同じ字に2つの読み方があるだけで、仮に2つのコードを用意しても、世に「誤用」を振り撒くだけに終わると思う。実際に運用すると、想像するのも寒気が走るほど間違いだらけになると思うよ。見た目じゃわからないんだし。
「分類できるものは違うコードを振りたい」っていう考え方はわからんでもないし、普通ならそれが安全策なんだろうけれど、今回ばっかりはあまり良い方向性だとは思えない。もし万が一コードを2つ振ってしまったら、将来「惡(『あ』でも『を』でもどちらでもいい)」という3番目のコードが必ず必要になる、と予言しよう。だって、それしか必要ないから。
Re:将来的展望 (スコア:1)
「日本語文字・表記史や日本史学等の分野で必要とされる学術用変体仮名」ともあるので、目的が文献の電子化でしょうか?
写真/映像としての保存では、検索ができないし、既存コードの単なる異字体と見なす事も出来ないという事?
見たところ、単なる異字体にしか見えないですが、、。
Re:将来的展望 (スコア:1)
「異体字」は結構範囲が広い概念ですね。
例えば、漢文調の文章で「新陰流一[乃]太刀【乃】至無刀取(しんかげりゅういちのたちないしむとうどり)」みたいなフレーズがあった時、この「[乃]」は、漢文ではなく日本語の助詞の「の」に他ならないわけですが、そういう場合、日本語であることを強調するために変体仮名が使われることが良くありました。日本語の文章で外来語を片仮名で書くのとちょうど反対ですね。さらに、同じ文章で漢文の「【乃】」と日本語の「[乃]」が同時に出ることがあります。つまり、筆者がいわば異体字を文脈で使い分けているわけです。それで、この特殊な異体字はかなり固有のパターンなので、一般的な意味での異体字とは異なるカテゴリに属しているわけですね。
同じ文章で、漢字の「乃」と変体仮名の「乃」が使い分けられている場合、この異体字には確実にコードを振っておかないと、電子化で情報の劣化が起こる、ということです。
さらに言うと、変体仮名は固有のグリフではないので、同じ単語に使われている変体仮名でも筆者の流儀によって字形が違います。ですから、変体仮名同士が異体字の関係にあるわけで、異体字という概念だけでは変体仮名を説明しきることはできないのです。字形が違っても同じ文字である、という認識まで含めて変体仮名です。漢文のニュアンスを変えて大和言葉であることを示すためだけの即興的な異体字が変体仮名、というあたりだと思います。上にのべたように表音文字と表意文字の差である異体字は区別しなければいけませんが、一方で、表音文字同士であれば異体字の同一視もしなければいけません。
変体仮名は活版の歴史があるので、その点でも重要であり、一般的な意味での漢字の異体字とは一線を画す存在です。
Re:将来的展望 (スコア:1)
そこまで言ったら、手書き文書をコード化すること自体に無理があるように聞こえちゃうね。
そういう用途の場合は実用上、文字列と画像を両方残すってことになるんじゃないかな。
Re: (スコア:0)
漢字と変体仮名を区別しなければならない理由は分かりますが、仮名と変体仮名を区別しなければならない理由は?
字形が違っても同じ表音文字同士として同一視しない理由は?
Re: (スコア:0)
たとえれば、通常の漢字で、音読みの漢音、唐音、呉音、訓読みで全部別のコードをふる、といえば確かにすごく筋が悪そう。
Re: (スコア:0)
とあるのでそもそも字体による考えは適切でない、従来の考えだと異字体だらけになってしまう、だから
と、字体ではなく音価×字母でコード化しましたって話でしょう。
Re: (スコア:0)
まず最初に言っておくが、フォント間の異体字とフォント内の異体字を混同したらいかんよ。
間違えるから。文字コードは字典と密接な関係にあるけど、やはり文字コードは字典じゃない。音を基準に考えることに別段の合理性がない。一方で、音を基準にしたら、変化を付けない限り間違いを防ぐことはできないが、その変化は元のグリフにはないから、完全な作字になって本末転倒になる。
同じ文章で漢字の「惡」と変体仮名の「惡」が使
Re: (スコア:0)
本当に?普通は「あ」と「を」は別物って方が多いと思うけど、同じのなんてあるの?
Re: (スコア:0)
なるほどわかった。「ルビ」機能をつければいいんだな。
Unicodeにルビを提案ってのはどうだろ?
発音記号として考えれば世界中で使えることでしょう…。
ついでに、注釈機能もつけちゃおう。
そうすれば、その文字を使った意図も説明できて便利だね!
※別途マークアップしろって話に…w