パスワードを忘れた? アカウント作成
14074712 journal
人工知能

yasuokaの日記: UD-KanbunとUD-Kundokuの自動文切り機能

日記 by yasuoka

私(安岡孝一)の9月23日の日記で書いた「古詩文斷句」APIラッパーを、UD-KanbunUD-Kundokuに組み込んでみた。そうしてみたところ、UD-Kundokuが非常にイイ感じになったので、今日の日記に書いておこうと思う。まずは、UD-Kundoku最新版のインストール。

$ pip3 install 'udkundoku>=0.7.1'

インストールがうまくいったら、論語のアタマの一節(常用漢字版)を、UD-Kundokuで訓読してみよう。

$ echo 子曰学而時習之不亦説乎有朋自遠方来不亦楽乎人不知而不慍不亦君子乎 | udkundoku -j
子は曰く
学びて而して時にこれを習ふ
また説ばざるか
朋有りて遠方より来る
また楽しまざるか
人は知らずして而して慍らず
また君子ならざるか

かなりイイ感じだ。ただ、もし「古詩文斷句」へのアクセスがうまく行かないと、文切りをUD-Kanbunが内部でおこなうことになるので、少し精度が下がる。私の手元でネットワークアクセスを切ってみると、同じ白文に対して以下の結果になった。

$ echo 子曰学而時習之不亦説乎有朋自遠方来不亦楽乎人不知而不慍不亦君子乎 | udkundoku -j
子は学ぶを曰ひて而して時にこれを習ふ
また説ばざるか
朋有りて遠方より来る
また人に楽しまざるは知らずして而して慍らず
また君子ならざるか

自動文切りがダメだと、最終的な訓読結果も精度が下がってしまう、という好例だと思う。よければ試してみてほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...