パスワードを忘れた? アカウント作成
13766537 journal
Google

yasuokaの日記: GoogleのBERTは漢文に返り点を打つことができるのか

日記 by yasuoka

『漢文の依存文法解析と返り点の関係について』(日本漢字学会第一回研究大会(2018年12月1日)発表予定)の発表準備をしていたところ、返り点程度ならGoogleのBERTを使えば打てるのではないか、という趣旨の御意見をいただいた。まあ、打てるかもしれないな、と思って、ここ5日間ほどBERT-Baseの2つのモデルと戯れてみたが、現時点での私(安岡孝一)の感触では、漢文の返り点はBERTの適用事例としては、かなり難しいのではないかと思える。

そもそもMultilingualモデルにもChineseモデルにも、古典中国語(Classical Chinese)が含まれておらず、いずれのvocab.txtもちょっとつらい。しかも不思議なことに、Chineseモデルのvocab.txtに「しにはとんとんワークケートを」なんていうvocabularyが含まれていて、どうなってるのかイマイチわからない。そこで、kanripoで公開中の大量の漢文に対して、まずは例の「穴埋め問題」を施すことを考えたのだが、BERTのTokenizationのところに

Because Chinese does not have whitespace characters, we add spaces around every character in the CJK Unicode range before applying WordPiece. This means that Chinese is effectively character-tokenized.

という妙なことが書かれていて、さすがに困り果てた。変な空白を入れてからWordPieceにかける、とか言われても、そのWordPieceどうすればいいの。代わりにSentencePieceを使う手も考えたが、それだとBERTのポリシーから離れていく気がする。さて、どうしたものか。

というわけで、現状のBERTでは、漢文に返り点を打つタスクをやらせるのは、ちょっとばかり無理がある。それとも私が見落としてるだけで、何か夢のような方法があるのかなぁ…。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...