yasuokaの日記: GiNZA v3.1.0で読む「ライトの兄弟オスカーはコミックブック作家だ。」
日本語係り受け解析エンジンGiNZAのv3.1.0がリリースされたので、さっそく使ってみた。以前のv2.2.1では解析にしくじっていた「ライトの兄弟オスカーはコミックブック作家だ。」という文が、v3.1.0では正しく解析できるようになったので、私(安岡孝一)個人としては大満足だ。インストールも簡単になっていて、LinuxやMac OS X (Catalina)ならば「pip3 install -U ginza --user」一発でインストールできる。Cygwin (64bit)では、事前にpython37-pipとpython37-develとpython37-cythonとpython37-numpyとpython37-wheelとgcc-g++とgitをcygwin.comから入れておく必要があるものの、これらを準備しておけば「pip3.7 install -U ginza --no-build-isolation」でインストールできる。
ただ、v2.2.xでのprint_conlluが無くなって、v3.1.0では代わりにanalyze_conlluが導入されているので、Universal Dependenciesを出力する際は注意してほしい。
>>> import spacy
>>> ja=spacy.load("ja_ginza")
>>> s=ja("ライトの兄弟オスカーはコミックブック作家だ。")
>>> from ginza.command_line import analyze_conllu
>>> print("\n".join(t for t in analyze_conllu(s)))
# text = ライトの兄弟オスカーはコミックブック作家だ。
1 ライト ライト NOUN 名詞-普通名詞-一般 _ 3 nmod _ BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|SpaceAfter=No|NP_B
2 の の ADP 助詞-格助詞 _ 1 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|SpaceAfter=No
3 兄弟 兄弟 NOUN 名詞-普通名詞-一般 _ 4 compound _ BunsetuBILabel=B|BunsetuPositionType=CONT|SpaceAfter=No|NP_B
4 オスカー オスカー PROPN 名詞-固有名詞-人名-一般 _ 7 nsubj _ BunsetuBILabel=I|BunsetuPositionType=SEM_HEAD|SpaceAfter=No|NP_I
5 は は ADP 助詞-係助詞 _ 4 case _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|SpaceAfter=No
6 コミックブック コミックブック NOUN 名詞-普通名詞-一般 _ 7 compound _ BunsetuBILabel=B|BunsetuPositionType=CONT|SpaceAfter=No|NP_B
7 作家 作家 NOUN 名詞-普通名詞-一般 _ 0 root _ BunsetuBILabel=I|BunsetuPositionType=ROOT|SpaceAfter=No|NP_I
8 だ だ AUX 助動詞 _ 7 cop _ BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|SpaceAfter=No
9 。 。 PUNCT 補助記号-句点 _ 7 punct _ BunsetuBILabel=I|BunsetuPositionType=CONT|SpaceAfter=No
GiNZA v3.1.0で読む「ライトの兄弟オスカーはコミックブック作家だ。」 More ログイン