パスワードを忘れた? アカウント作成
14217625 journal
人工知能

yasuokaの日記: spaCyの日本語モデルがリリース

日記 by yasuoka

spaCyに公式の日本語モデルが追加されたので、係り受け可視化ツールdeplacyと繋いでみることにした。spaCyの日本語モデルには、大(ja_core_news_lg)・中(ja_core_news_md)・小(ja_core_news_sm)の3種類があるので、とりあえず小のモデルをダウンロードしてインストール。

$ pip3 install -U spacy sudachipy deplacy
$ python3 -m spacy download ja_core_news_sm

LinuxやMac OS Xなら、インストールは非常に簡単。Cygwin (64bit)でも、python37-devel python37-pip python37-cython python37-numpy gcc-g++の最新版を入れておけば

$ pip3.7 install -U spacy sudachipy deplacy --no-build-isolation
$ python3.7 -m spacy download ja_core_news_sm

でインストールできる。インストールがうまくいったら、「難儀な難儀は難儀する」を係り受け解析してみよう。

$ python3
>>> import spacy
>>> ja=spacy.load("ja_core_news_sm")
>>> doc=ja("難儀な難儀は難儀する")
>>> import deplacy
>>> deplacy.render(doc)
難儀 ADJ  ═╗<╗   acl
な   AUX  <╝ ║   aux
難儀 NOUN ═╗═╝<╗ nsubj
は   ADP  <╝   ║ case
難儀 VERB ═╗═══╝ ROOT
する AUX  <╝     aux

3つの「難儀」が、それぞれADJ(形容詞/形容動詞)・NOUN(名詞)・VERB(動詞)になっていて、単語間の係り受けも完璧だ。素晴らしい。他にもspaCyには様々な機能があるので、ぜひ色々と試してほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家

読み込み中...