日本語係り受け解析器「2021年の総ざらえ」 | yasuokaの日記

yasuokaの日記：日本語係り受け解析器「2021年の総ざらえ」 0

日記 by yasuoka 2021年12月18日 22時01分

自然言語処理Advent Calendar 2021を見に行ってみたところ、今年は閑古鳥が鳴いている。もはや、自然言語処理ブームが過ぎ去った、ということなのかもしれないが、それでも、今年発表された日本語係り受け解析器のうち、私(安岡孝一)の目に止まったものを「総ざらえ」してみよう。

ja-ginza-electra
transformers-ud-japanese-electra-base-ginzaをベースにした日本語係り受け解析器で、GiNZAの最新モデルである。単語間係り受けのみならず、文節間係り受けもサポートしており、日本語係り受け解析器としてはダントツの性能(私見)。
SuPar-UniDic
形態素解析部に10種類のUniDicを、係り受け解析部に21種類のBERTモデルを、つなぎ換えて楽しむ日本語係り受け解析器。どれをどう繋げば性能が出るのかわかりにくいが、使い方は3月12日の日記を参照のこと。
Trankit
XLM-RoBERTaをベースにした多言語係り受け解析器。トークナイザまわりが各言語ごとにバラバラに実装されており、係り受け解析部は全言語共通となっている。使い方は4月9日の日記を参照のこと。
esupar
BERT/RoBERTaモデルをベースにした日本語・中国語・タイ語係り受け解析器。日本語の単語長に、国語研短単位と国語研長単位の両方をサポートしている。使い方は10月27日の日記を参照のこと。

もちろん昨年の日本語係り受け解析器も無くなったわけではなく、あらかたの解析器が現在も動くのだが、自然言語処理における技術革新はどんどん進んでおり、新しい解析器の方が様々な点で良くなっている。ぜひ、新しい日本語係り受け解析器を試してみてほしい。