パスワードを忘れた? アカウント作成
15518806 journal
人工知能

yasuokaの日記: 日本語係り受け解析器「2021年の総ざらえ」

日記 by yasuoka

自然言語処理Advent Calendar 2021を見に行ってみたところ、今年は閑古鳥が鳴いている。もはや、自然言語処理ブームが過ぎ去った、ということなのかもしれないが、それでも、今年発表された日本語係り受け解析器のうち、私(安岡孝一)の目に止まったものを「総ざらえ」してみよう。

  • ja-ginza-electra
    transformers-ud-japanese-electra-base-ginzaをベースにした日本語係り受け解析器で、GiNZAの最新モデルである。単語間係り受けのみならず、文節間係り受けもサポートしており、日本語係り受け解析器としてはダントツの性能(私見)。
  • SuPar-UniDic
    形態素解析部に10種類のUniDicを、係り受け解析部に21種類のBERTモデルを、つなぎ換えて楽しむ日本語係り受け解析器。どれをどう繋げば性能が出るのかわかりにくいが、使い方は3月12日の日記を参照のこと。
  • Trankit
    XLM-RoBERTaをベースにした多言語係り受け解析器。トークナイザまわりが各言語ごとにバラバラに実装されており、係り受け解析部は全言語共通となっている。使い方は4月9日の日記を参照のこと。
  • esupar
    BERT/RoBERTaモデルをベースにした日本語・中国語・タイ語係り受け解析器。日本語の単語長に、国語研短単位と国語研長単位の両方をサポートしている。使い方は10月27日の日記を参照のこと。

もちろん昨年の日本語係り受け解析器も無くなったわけではなく、あらかたの解析器が現在も動くのだが、自然言語処理における技術革新はどんどん進んでおり、新しい解析器の方が様々な点で良くなっている。ぜひ、新しい日本語係り受け解析器を試してみてほしい。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

計算機科学者とは、壊れていないものを修理する人々のことである

読み込み中...