パスワードを忘れた? アカウント作成
14140426 journal
人工知能

yasuokaの日記: 日本語の言語処理における「単語」長の問題

日記 by yasuoka

松田寛・若狭絢・山下華代・大村舞・浅原正幸の『UD Japanese GSDの再整備と固有表現情報付与』(言語処理学会第26回年次大会, P1-34)を横目に、UniDic2UDからUD_Japanese-GSDを外した時の判断を、私(安岡孝一)なりに書き留めておこうと思う。

単語切りと形態素解析をUniDic+MeCabでおこなった上で、係り受け解析をUDPipeでおこなう、という言語処理を考えた場合、現在のUD_Japanese-GSDは「単語」の長さに問題がある。たとえば「とんでもない。」という文は、現在のUD_Japanese-GSDでは、以下のようになっている。

1       とんでもない    とんでもない    ADJ     JJ      _       0       root    _       SpaceAfter=No
2       。      。      PUNCT   SYM     _       1       punct   _       SpaceAfter=No

一方、「とんでもない。」を現代書き言葉UniDicで解析すると、以下のようになる。

とんでも        副詞,,,,,,トンデモ,とんでも,とんでも,トンデモ,とんでも,トンデモ,和,,,,,,,相,トンデモ,トンデモ,トンデモ,トンデモ,4,,,7398347489026560,26915
ない    形容詞,非自立可能,,,形容詞,終止形-一般,ナイ,無い,ない,ナイ,ない,ナイ,和,,,,,,,相,ナイ,ナイ,ナイ,ナイ,1,C3,,7543208145986219,27442
。      補助記号,句点,,,,,,。,。,,。,,記号,,,,,,,補助,,,,,,,,6880571302400,25
EOS

つまり、UD_Japanese-GSDは「とんでもない」を1語としているのに対し、UniDicは「とんでも」「ない」の2語としているわけだ。これは、どちらがいいとか悪いとかでは無く、あくまで処理上の「単語」長をどう取るか、という問題だが、ここが合っていないと解析精度が下がってしまう。

そこで、処理単位を合わせるために、UniDic2UDではUD_Japanese-GSDを捨てて、UD_Japanese-Modernを中心とする言語モデルに移行したわけである。ただ、今年の5月にUD_Japanese-GSDは大幅改良されるらしいので、またその時には考えてみたい。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...