
yasuokaの日記: Universal Dependenciesで読む共通テストの『欧陽文忠公集』と『韓非子』
大学入学共通テスト初日の「国語」第4問(漢文)は、【問題文Ⅰ】に『欧陽文忠公集』が、【問題文Ⅱ】に『韓非子』が出題された。まずは『欧陽文忠公集』の方を見ていこう。
大学入学共通テスト初日の「国語」第4問(漢文)は、【問題文Ⅰ】に『欧陽文忠公集』が、【問題文Ⅱ】に『韓非子』が出題された。まずは『欧陽文忠公集』の方を見ていこう。
Transformersのモデルページに、古典中国語モデルGuwenBERT-baseが収録されているのを見つけたので、ちょっとだけGoogle Colaboratoryで試してみた。
spaCy-SynChaにもbunsetu_spansとbunsetu_spanが準備されており、昨日の日記と同様、spaCyのDoc・Span・Tokenが、日本語の文章・文節・単語に対応している。
UniDic-COMBOにbunsetu_spansとbunsetu_spanを実装したのだが、使い方が分かりにくいとの御意見をいただいた。私(安岡孝一)個人としては、文節間係り受けより単語間係り受けの方を使ってほしいのだが、この際なので、spaCyのDoc・Span・Tokenに、日本語の文章・文節・単語が、どう実装されているかを紹介しておこう。
元日の日記で公開した「荒野より-Benchmark」だが、オリジナル(『群像』第21卷第10號(1966年10月)pp.6-17)に合わせて、旧字旧仮名に戻すことにした。「舞姬/雪國/荒野より-Benchmarks」として、まとめることにしたので、ぜひ試してみてほしい。ちなみに、私(安岡孝一)の手元で試したベンチマーク結果(LAS/MLAS/BLEX)は、以下の通り。
私(安岡孝一)の12月28日の日記で仮リリースしたUniDic-COMBOを、頑張ってPyPIからリリースした。Linux系マシンなら
$ pip3 install unidic_combo
大晦日・元日の日記に続いて、『形態素解析部の付け替えによる近代日本語(旧字旧仮名)の係り受け解析』の「雪國-Benchmark」で、各種日本語係り受け解析ツールを評価してみた。
昨日の日記の続きだが、年が明けて2021年になったので、三島由紀夫『荒野より』の一節から「荒野より-Benchmark」を製作した。各種日本語係り受け解析ツールを評価してみたので、正月早々ざっと一覧にしてみよう。
UniDic-COMBOを近代日本語向けにチューニングしてみたところ、かなりイイ感じになってきたので、『形態素解析部の付け替えによる近代日本語(旧字旧仮名)の係り受け解析』の「舞姬-Benchmark」で評価してみた。
ナニゲにアレゲなのは、ナニゲなアレゲ -- アレゲ研究家