アカウント名:
パスワード:
うーむ、やはりダメですか。しかも、BERTのtokenizerは、漢字に関しては、かなり筋が悪い実装に見えるのです。文という単位もダメ、単語という単位もダメだとすると、BERTで漢文(Classical Chinese)を扱うのは、スッパリあきらめるべきかな…。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常
next sentence prediction (スコア:1)
Re:next sentence prediction (スコア:2)
うーむ、やはりダメですか。しかも、BERTのtokenizerは、漢字に関しては、かなり筋が悪い実装に見えるのです。文という単位もダメ、単語という単位もダメだとすると、BERTで漢文(Classical Chinese)を扱うのは、スッパリあきらめるべきかな…。