
yasuokaの日記: 現代書き言葉/現代話し言葉UniDic v3.1.0に対応したUniDic2UD 2.8.1をリリース
現代書き言葉UniDicと現代話し言葉UniDicが、いずれもv3.1.0にバージョンアップされた、との連絡をいただいた。早速、私(安岡孝一)の方でもUniDic2UDを2.8.1にバージョンアップして、これらの新しいUniDicを使えるようにした。現代書き言葉UniDicの方を、Google Colaboratoryで使ってみよう。
!pip install 'unidic2ud>=2.8.1'
import unidic2ud
unidic2ud.download("gendai")
nlp=unidic2ud.load("gendai")
doc=nlp("望遠鏡で泳ぐ彼女を見た。")
print(doc)
ダウンロードに20分ほどかかるものの、私の手元では以下の結果になった。
# text = 望遠鏡で泳ぐ彼女を見た。
1 望遠 望遠 NOUN 名詞-普通名詞-一般 _ 2 compound _ SpaceAfter=No|Translit=ボウエン
2 鏡 鏡 NOUN 接尾辞-名詞的-一般 _ 4 obl _ SpaceAfter=No|Translit=キョウ
3 で で ADP 助詞-格助詞 _ 2 case _ SpaceAfter=No|Translit=デ
4 泳ぐ 泳ぐ VERB 動詞-一般 _ 5 acl _ SpaceAfter=No|Translit=オヨグ
5 彼女 彼女 PRON 代名詞 _ 7 obj _ SpaceAfter=No|Translit=カノジョ
6 を を ADP 助詞-格助詞 _ 5 case _ SpaceAfter=No|Translit=ヲ
7 見 見る VERB 動詞-非自立可能 _ 0 root _ SpaceAfter=No|Translit=ミ
8 た た AUX 助動詞 _ 7 aux _ SpaceAfter=No|Translit=タ
9 。 。 PUNCT 補助記号-句点 _ 7 punct _ SpaceAfter=No
係り受けにはミスがあるものの、望遠鏡が「望遠」「鏡」の2語になっていて、うれしい。というのも、旧版の現代書き言葉UniDicでは、ここが「望」「遠」「鏡」の3語に分かれてしまっていて、かなり苦労させられていたのだ。ただ、Web茶まめは旧版を使っているのか、まだ「望」「遠」「鏡」に分かれてしまうようだ。Web茶まめも、早くv3.1.0に対応してくれると、うれしいなぁ。
現代書き言葉/現代話し言葉UniDic v3.1.0に対応したUniDic2UD 2.8.1をリリース More ログイン