yasuokaの日記: UD-KanbunとUD-Kundokuの自動文切り機能
日記 by
yasuoka
私(安岡孝一)の9月23日の日記で書いた「古詩文斷句」APIラッパーを、UD-KanbunとUD-Kundokuに組み込んでみた。そうしてみたところ、UD-Kundokuが非常にイイ感じになったので、今日の日記に書いておこうと思う。まずは、UD-Kundoku最新版のインストール。
$ pip3 install 'udkundoku>=0.7.1'
インストールがうまくいったら、論語のアタマの一節(常用漢字版)を、UD-Kundokuで訓読してみよう。
$ echo 子曰学而時習之不亦説乎有朋自遠方来不亦楽乎人不知而不慍不亦君子乎 | udkundoku -j
子は曰く
学びて而して時にこれを習ふ
また説ばざるか
朋有りて遠方より来る
また楽しまざるか
人は知らずして而して慍らず
また君子ならざるか
かなりイイ感じだ。ただ、もし「古詩文斷句」へのアクセスがうまく行かないと、文切りをUD-Kanbunが内部でおこなうことになるので、少し精度が下がる。私の手元でネットワークアクセスを切ってみると、同じ白文に対して以下の結果になった。
$ echo 子曰学而時習之不亦説乎有朋自遠方来不亦楽乎人不知而不慍不亦君子乎 | udkundoku -j
子は学ぶを曰ひて而して時にこれを習ふ
また説ばざるか
朋有りて遠方より来る
また人に楽しまざるは知らずして而して慍らず
また君子ならざるか
自動文切りがダメだと、最終的な訓読結果も精度が下がってしまう、という好例だと思う。よければ試してみてほしい。
UD-KanbunとUD-Kundokuの自動文切り機能 More ログイン