パスワードを忘れた? アカウント作成
14022983 journal
人工知能

yasuokaの日記: AIを用いた漢文の文法解析

日記 by yasuoka

今日の日本中国学会で話す予定だった「AIを用いた漢文の文法解析」が、台風19号で流れてしまった。台風なので仕方ないのだけど、私(安岡孝一)が話す心算だった内容を、かいつまんで日記に残しておこうと思う。

漢文(古典中国語)の文法解析を考えた場合、私個人としては、形態素解析→依存文法解析→直接構成鎖解析→談話構造解析、という感じの段階を踏んでいくことになるだろう、と睨んでいる。これらのうち、形態素解析については『古典中国語(漢文)の形態素解析とその応用』でも示したとおり、MeCabを用いる手法が実用化できていて、あるいは他の解析エンジンを使うにしても、Conditional Random Fieldsで単語切りと品詞付与を同時におこなう、というのが有効なようである。次に、依存文法解析については『四書を学んだMeCab+UDPipeはセンター試験の漢文を読めるのか』でも示したとおり、UDPipeを用いる手法が係り受け解析については精度が良くて、Universal DependenciesをNeural Network Classifier (Oracle付きがいいようだ)にぶち込むのが、漢文の動賓終構造の自動抽出に効くのは間違いなさそうだ。ただ、実は私自身は、UDPipeで文切りまで出来るだろう、と軽く考えていたのだが、正直そのあたりは、まだまだ難しい。

一方、直接構成鎖解析については『Universal Dependenciesの拡張にもとづく古典中国語(漢文)の直接構成鎖解析の試み』でも示したとおり、まだ「試み」に過ぎなくて、なかなか実用化は難しそうだ。そんなわけなので、その次の談話構造解析については、まだ、研究の端緒についたところだったりする。まあ、それでも、とりあえず形態素解析と依存文法解析については、udkanbunでpython3パッケージにしたので、日本中国学会の皆さんも、ぜひ使ってみてほしい。あるいはpython3をインストールするのが面倒な人は、「UDPipe Visualizer with Immediate Catena Tree」で形態素解析→依存文法解析→直接構成鎖解析(ただし実装としては、まだ甘い)の実際をWWW公開しているので、色々な文で試してみてほしい。

という感じの内容を「招待講演」で話して、日本中国学会の方々の反応を知りたいなぁ、と思っていたのだけど、台風19号で流れてしまった。台風なので仕方ないのだけど、返す返すも残念だ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

犯人はmoriwaka -- Anonymous Coward

読み込み中...