パスワードを忘れた? アカウント作成
この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。

Re: GoogleのBERTは漢文に返り点を打つことができるのか」記事へのコメント

  • 私は論文を読んだだけで自分でプログラムを動かしたわけではないので細かいノウハウはわかりませんが、文のかわりに章を単位とするのは筋が悪いと思います。BERT の訓練は2種類の混合で、2つ目が次の文を予測する (入力された次の文が本物か、コーパス中の別の箇所からとってきた偽物か2値分類する) というものです。隣接文間で見られるような内容的一貫性は章をまたぐと失われ、この訓練の有効性も失われると予想できます。
    • by yasuoka (21275) on 2018年11月20日 16時44分 (#3518558) 日記

      うーむ、やはりダメですか。しかも、BERTのtokenizerは、漢字に関しては、かなり筋が悪い実装に見えるのです。文という単位もダメ、単語という単位もダメだとすると、BERTで漢文(Classical Chinese)を扱うのは、スッパリあきらめるべきかな…。

      親コメント

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

処理中...