国語辞典を寝転びながらパラパラ読んで分かったのですが、辞書の語彙数が7-8万語を超えてくると、日常用語ではないながらもある特定の分野で用いられる言葉が急に増えてきます。いわゆる専門用語です。日本語では専門用語はたいてい名詞の連続なのですが、一般にどのような名詞が連続すれば専門用語として成立するのかは実に難しい問題です。動詞の意味論などと違い、名詞では「名詞であること」とその表層表現以外に、汎用的に間違いなく存在する言語学的な概念がありません。「シソーラスがあるじゃないか」とおっしゃる方もいるでしょうが、名詞一般を扱おうとすると、間違いなくカバレージの問題にぶち当たります。そもそも、シソーラスは単語を後付けで分類しただけに過ぎないのです。人間はそれを敢えて破った用法を生み出すことにより、単語に新しい意味を与えることができます(Alice's Adventures in Wonderlandが好例、原書を読まれたし)。ここまで背景知識の作り込みが難しくなると、もはやアルゴリズムを工夫したところで一般のユーザーがストレスなく使えるものはとうてい作れません。むしろ、とにかく人間が用いている専門用語を単独の単語として辞書にぶち込んだ方が、ユーザは楽になります。そうすると、アルゴリズムは別に込み入ったものである必要はありません。クラシックな文節数最小法でも十分使いものになってしまいます(専門用語が選ばれやすくなるので、辞書の語彙強化とは相性がよいアルゴリズム)。
「生の声」反映の結果か? (スコア:3, 参考になる)
一太郎 for Linux with ATOK16 [2ch.net]
Anthy/uim スレッド 2 [2ch.net]
ユーザの生の声をヒアリングした結果、SKKマンセーな方々にATOKは豚に真珠。一般向け市場は
WXユーザーなジジイの感想 (スコア:3, 興味深い)
日本語変換システムにおいては、変換ロジックも重要だけどそれ以上に辞書が重要なのは、かつてのDOS全盛期に「貧弱な辞書(つーか、辞書を豪華にしてもマシンパワーがついてきてなかった)をいかに効率良く使うか」という苦労を味わった人であれば自明な話だと思うんだが。
昔話をすれば、ATOKでもVJEでも、ユーザーによって、変換ロジックの「クセ」を逆手にとって「変換効率向上」を謳ったり、分野ごとの専門用語を網羅したりした、多くの「辞書チューン」ノウハウがパソコン通信などで公開されていた。なにせハードディスクが高嶺の花だった時代ゆえ、「いかにフロッピー1枚に効率のよい辞書を収めるか」という点に知恵を絞っていた。
中でもその手のノウハウが最も豊富だったのは、当時無料で使用できた数少ないDOS用の日本語変換システム(当時はFEPって呼んでたよなぁ)のWXPだろう。その後WX2として商用化されたが、前身のWXPも無料で公開されつづけ、大手パソコン通信ネット上に開設された会議室では、数多くの辞書や周辺ツールが公開され、逆にそうしたノウハウを集めてメーカーが製品化したりもした。今振り返れば、ある意味バザールモデルの原型の一つとも言えるかもしれない。その後マシンパワーやOS環境の変化に伴い、WX2→WX3→WXGとATOKと同様の進化・肥大の道をたどり、結果としてWXシリーズは市場からは消えていく訳だが。
実際問題として、日本語変換システム用の辞書なんてものは、どう贔屓目に見ても変換システムの裏方でしかなく、ましてや辞書だけでなくロジックそのものにすら手を入れることができるオープンソースでは、辞書という存在があまり重要視されてこなかったのではないだろうか?そもそもUNIX上で動くフリーの日本語変換システムの代表格であるCannaとWnnが、Canna3.6やFreeWnnの登場まで、ずいぶん長い間放置状態だった点を考えると、辞書どころか日本語変換システムそのものが裏方で地味な存在であることは否定できないだろう。
JustSystemを批判するのは簡単だが、少なくともここに至る状況を考慮すると、現時点ではJustSystemの判断がそれほど間違っているとは思えない。この状況をビジネスチャンスととらえてリソースをつぎ込むには、そうとうの勇気が必要で、それはJustSystem並みの規模を持つ企業では難しいと思う。
マンパワーが要求されてる (スコア:1)
オープンソースは向いてませんね。
辞書形式が統一されてて、辞書を作るためのオープンディクショナリープロジェクト
とかを立てたら、なんとかなるんですかねぇ?
Re:マンパワーが要求されてる (スコア:0)
英辞郎は?そこそこ成功しているとおもうけど。
辞書違い (スコア:0)
専門用語の辞書などは多分英辞郎と同じ手でいけると思うが、基本辞書は変換ロジックと密接に絡むので、同様の手法じゃまず無理。
単に語彙を増やせばいいってもんじゃないのよ。
Re:辞書違い (スコア:0)
#もちろん、単漢字ではなくその漢字を含む単語を入れれば適切に変換という意味ね。
Re:辞書違い (スコア:0)
簡単じゃあないのですよね、適切に変換、と一言では言えますが。
それと今の辞書だと学習の種類も多岐に渡って、一文字追加するだけでも
結構ややこしい設定が必要そうなので辞書の整備も一筋縄じゃあ
いかないだろうなぁ‥と変換の癖を見て感じます。
#昔、ワープロ作りに絡んだ経験から。
Re:WXユーザーなジジイの感想 (スコア:1)
>とができるオープンソースでは
現実には、ロジックに手を入れることができて、なおかつそれをやる
意欲のある人は、もうほとんどいませんね。日本語変換関係は、フリー
ソフトウェア世界では、もはやロストテクノロジーだと認識してもそ
れほどあやまりではないと思います。
再起動させるのなら、「誰か詳しい人」がやってくれることを期待する
のではなく、詳しくない人が勉強して詳しくなって、その人がやるしか
ないということです。
>辞書という存在があまり重要視されてこなかったのではないだろうか?
「ロジックのだめさを辞書で補おうという努力は、もう限界なのではない
でしょうか」と語られていたのが8年から6年前位かな。あのあたりは、いろ
いろと人間関係的にドロドロの問題をはらんでいますから、まあ一般に知ら
れていなくても不思議ではないですね(^◇^);
IN EARTH AND SKIE AND SEA STRANGE THYNGES THER BE.
Re:WXユーザーなジジイの感想 (スコア:0)
>でしょうか」と語られていたのが8年から6年前位かな。あのあたりは、いろ
>いろと人間関係的にドロドロの問題をはらんでいますから、まあ一般に知ら
言葉に興味がない連中に言葉を扱うシステムを考えさせ (スコア:2, 興味深い)
「舞台裏」なるものは知らんけど、20年近くかな漢字変換システムを利用し、かつ語学や自然言語で遊んでみた経験から。フリーのかな漢字変換システムで長らく(なおかつ、今に至っても)辞書が貧弱なのは、決して単純にオープンソースだったからではありません。実はそれ以前の問題で、用意できる辞書に合わせた最適なアルゴリズムの選択を怠っていたのがガンです。これは自然言語の勉強なしにはまず気が付けないことで、どう見ても各開発プロジェクトにプログラマしかいない現状では治療不可能です。
国語辞典を寝転びながらパラパラ読んで分かったのですが、辞書の語彙数が7-8万語を超えてくると、日常用語ではないながらもある特定の分野で用いられる言葉が急に増えてきます。いわゆる専門用語です。日本語では専門用語はたいてい名詞の連続なのですが、一般にどのような名詞が連続すれば専門用語として成立するのかは実に難しい問題です。動詞の意味論などと違い、名詞では「名詞であること」とその表層表現以外に、汎用的に間違いなく存在する言語学的な概念がありません。「シソーラスがあるじゃないか」とおっしゃる方もいるでしょうが、名詞一般を扱おうとすると、間違いなくカバレージの問題にぶち当たります。そもそも、シソーラスは単語を後付けで分類しただけに過ぎないのです。人間はそれを敢えて破った用法を生み出すことにより、単語に新しい意味を与えることができます(Alice's Adventures in Wonderlandが好例、原書を読まれたし)。ここまで背景知識の作り込みが難しくなると、もはやアルゴリズムを工夫したところで一般のユーザーがストレスなく使えるものはとうてい作れません。むしろ、とにかく人間が用いている専門用語を単独の単語として辞書にぶち込んだ方が、ユーザは楽になります。そうすると、アルゴリズムは別に込み入ったものである必要はありません。クラシックな文節数最小法でも十分使いものになってしまいます(専門用語が選ばれやすくなるので、辞書の語彙強化とは相性がよいアルゴリズム)。
名詞の連続は、かな漢字変換システムが苦手とし、かつ出てくる時には大量に出てくる問題です。昔のATOK6は「バカのクセに漢字に変換する」といわれていた通り、名詞の連続を(単漢字を含めて)メチャクチャに変換する傾向がありました(だから名詞連続を単独の単語として辞書登録すると変換精度が上がった)。幸いジャストシステムには日本語のプロが何人かいて、上述の問題に気が付いたのでしょう。ATOK9ぐらいでしたか、辞書を十万語規模に強化してからは、連続変換でも昔ほど語彙不足で悩むことはなくなりました。その後、上述の問題に気が付いた私は、たまたま手元にあった24万語規模の辞書をFreeWnn用に変換し、辞書に加えてみました。結果は鮮やかなもので、数文からなる段落の一発変換でも誤り個所が2-3個所以下に留まることが多くなりました。「アルゴリズムがバカだ」と(Wnn4時代に)いわれていたのと同じシステムだと信じることができなかったぐらいです。
繰り返しになりますが、以上の問題に私が気づけたのは、語学や自然言語の背景があったことがほぼ唯一の理由です。議論は別にここでやっても2chでも構いませんが、必要な知識を備えた人間が一人もいない状態(ここも2chもそうだった)では、どこで話し合ってみても建設的な結果はまず得られないでしょうねぇ...
吹き荒ぶ滅びの風 (was Re:言葉に興味がない連中に言 (スコア:2, 興味深い)
現実の話をさせていただくと、各開発プロジェクトに
現在プログラマがいない/少ないことが、この劣悪な状況を
つくり出しているのです。
もちろん皆無ではなく、必死にがんばっている人がいるのですが、
プログラミングやアルゴリズムに関する相談や議論が成立しないほど
ひどい状況で、たった一人で虚しさに苛まれながら努力していたり、
あるいはもう挫折してしまったというのが現状です。
さらにひどいことに、手は出さないが口は出すという人々が取り付いて
いて、たった1人の開発者に指導者が10人付いていたりして、
眼を覆わんばかりの悲惨な状況をMLアーカイヴに露呈している
ところもありますね。
というわけで、プログラムが書ける人は参加してやってください。
IN EARTH AND SKIE AND SEA STRANGE THYNGES THER BE.
Re:吹き荒ぶ滅びの風 (was Re:言葉に興味がない連中に (スコア:1)
なんだか会社経営者の問題を見ているような気がします。会社のトップもいろいろいますが、大方、強烈な人格を持った人間でないと会社経営はうまく行きません。少々語弊はありますが、アクが強いぐらいの方が逆に会社のシンボルとして多くの人に印象を残すことができるのです。逆に、八方美人であちこちにいい顔をしようとする人間がトップに立つと、会社自体が二枚舌に見られて信用されなくなってしまうということがあります。本当に知識や手口を知っている人間であれば、自分の人格を他人に教え込んででも自分のやりたいことを大勢で実行することはできます。残念ながら、こういう技は「タダの人」にはなかなかできません。
余談かも知れませんが、似たような問題を「伽藍とバザール [cruel.org]」の論理的誤解として発見しました。実は、「伽藍とバザール」の教訓1
と、教訓3
さらに、「教訓1で生成されたソフトウェアは消滅しない」という補題を与えると、以下の命題が成り立ちます。
この命題は、注意して解釈しなければなりません。開発者に焦点を当てた場合、この命題は「この過程で、もともと開発者だった人間の一部は、自分が作ったソフトウェアが淘汰されることにより、他のソフトウェアの開発に携わるようになる」としか言っていないのです(教訓3を導出する過程として書きつづられているのはまさにこれ)。よく誤解されているのですが、決して「任意の(あるいは『単なる』)開発者が、他のソフトウェアの開発に携わるようになる」ではありません。Linuxがバザールモデルでうまくいったのは、たまたまLinuxの開発時に、ほかのさまざまなUnixの開発に携わった人達を巻き込むことができたからに過ぎません。極論すれば「運がよかった」のです。もし任意の開発者が携われるなら、アメリカ人だって日本語のかな漢字変換システムが作れてしまいます。さすがにそれはおかしいですよね。
Re:言葉に興味がない連中に言葉を扱うシステムを考え (スコア:1)
補足、意図していたタイトルは「言葉に興味がない連中に言葉を扱うシステムを考えさせるのが失策」。もっとタイトルのフィルードが長くなればなぁ...
参考文献は? (スコア:0)
> 語学や自然言語の背景があったことがほぼ唯一の理由です。
読む人がいるかどうか知らないので無責任な物言いになりますが
仮に興味の或る人が必要な知識を獲得するために
とっかかりに読めば良いような参考文献はあるのでしょうか
文献よりも観察 (スコア:1)
教科書を... というのであれば、例えば日本語では「言語と計算」シリーズ(東京大学出版会)でしょうか。岩波にもシリーズがあったような気がします。(遠ざかってだいぶ経つので書名が出てこない...) 英語だと、Foundations of Statistical Natural Language Processing [amazon.com]が百科事典的に使えそうな本です。
ただし、自然言語の現象というのはソフトウェアなどのように人間が人工的に作り上げるものと違い、人間の「慣れ」によって引き起こされるものが往々にしてあります。体系的な理論付けがどうしても後手に回ってしまうこともあるので、決してOSなどのように教科書を読めばすべてが分かるという分野ではありません。また、客観性が理論の命というわけでもなくなってきます(特に談話や対話になると)。単に、さまざまな現象を素朴にとらえてみたいというのであれば、むしろ例えば小説、ノンフィクション、自伝、童話などの書き物、あるいは対面や電話、メールやIMなどでの会話をよくよく観察してみるという方法もあります。特に、文系の言語学者では約半数が内省で研究を進めているそうです。さすがに工学系ではそこまではやらせてくれませんが、それでも個々の文をよく眺めることからきっかけが掴めることはあります。
Re:言葉に興味がない連中に言葉を扱うシステムを考え (スコア:0)
LinuxのSMPの件とかで懲りてないのかなあ。
Re:言葉に興味がない連中に言葉を扱うシステムを考え (スコア:0)
汝反例をば示せぬこそ、肯定に等価なれ。
Re:WXユーザーなジジイの感想 (スコア:1)
これが当時のほかのFEPに比べて、頭がいいんですよ(変換効率が良いと、ちょっとニュアンスが違う)。
ところが、学習させていったり、辞書を追加していくとおバカさんになるのも、WX2+ と同じく困った傾向でした。
という事で、もしかしたら、MS-IMEはWX2/3/P系の血を引いているかも知れないということと、
アルゴリズム以外にも辞書のバランスが変換効率に影響があった(ACさんの辞書チューンと同義かも?)、
ということを言わせてください。