yasuokaの日記: 韓国語の係り受け解析エンジンとしてのStanfordNLP
一昨日の日記の続きだが、StanfordNLPでも、ko_gsdモデルを使った韓国語の係り受け解析がおこなえる。とりあえずpip3とpython3で、StanfordNLPとko_gsdモデルをインストールしよう。
% pip3 install stanfordnlp
% python3
>>> import stanfordnlp
>>> stanfordnlp.download("ko_gsd")
>>> quit()
色んなものを取ってくるので、かなりインストールに時間がかかるのだが、これでStanfordNLPのko_gsdモデルを使える。うまくいったら、一昨日と同じく「그래서 그들은 바다로 갔다.」を、係り受け解析してみよう。
% python3
>>> import stanfordnlp
>>> ko=stanfordnlp.Pipeline(lang="ko",treebank="ko_gsd")
>>> s=ko("그래서 그들은 바다로 갔다.")
>>> print(s.conll_file.conll_as_string())
1 그래서 그래서 ADV MAJ _ 4 advmod _ _
2 그들은 그+들+은 PRON NP+XSN+JX _ 4 nsubj _ _
3 바다로 바다+로 ADV NNG+JKB _ 4 obl _ _
4 갔다 가+았+다 VERB VV+EP+EF _ 0 root _ _
5 . . PUNCT SF _ 4 punct _ _
SVGで可視化すると、こんな感じ。UDPipeと性能的には大差ない気がするので、あとはインストールの手間をどう考えるかだろう。
韓国語の係り受け解析エンジンとしてのStanfordNLP More ログイン