パスワードを忘れた? アカウント作成
14092384 journal
人工知能

yasuokaの日記: UD-Kanbunで読む2011~2020年のセンター漢文

日記 by yasuoka

昨年の『四書を学んだMeCab+UDPipeはセンター試験の漢文を読めるのか』に続いて、最新のUD-Kanbun 1.7.9で、ここ10年間のセンター試験『国語』の漢文本文を読んでみることにした。評価指標は、CoNLL2018のLAS・MLAS・BLEXを用いた。

  • 2020年
    LAS F1 Score: 51.00
    MLAS Score: 49.48
    BLEX Score: 50.52
  • 2019年
    LAS F1 Score: 71.04
    MLAS Score: 66.88
    BLEX Score: 69.40
  • 2018年
    LAS F1 Score: 66.48
    MLAS Score: 58.60
    BLEX Score: 63.69
  • 2017年
    LAS F1 Score: 56.20
    MLAS Score: 47.74
    BLEX Score: 50.97
  • 2016年
    LAS F1 Score: 61.70
    MLAS Score: 54.49
    BLEX Score: 58.20
  • 2015年
    LAS F1 Score: 64.25
    MLAS Score: 60.85
    BLEX Score: 63.49
  • 2014年
    LAS F1 Score: 46.15
    MLAS Score: 41.72
    BLEX Score: 42.94
  • 2013年
    LAS F1 Score: 58.25
    MLAS Score: 50.30
    BLEX Score: 55.15
  • 2012年
    LAS F1 Score: 69.05
    MLAS Score: 67.01
    BLEX Score: 68.03
  • 2011年
    LAS F1 Score: 73.30
    MLAS Score: 68.73
    BLEX Score: 70.99

今年(2020年)が最悪になるだろうと踏んでいたのだが、さにあらず、2014年の『陸文定公集』の方がUD-Kanbunには手強いらしい。うーん、どうしてだろう? とりあえず、評価に使ったシェル・スクリプト(「pip3 install -U udkanbun」はコメントアウトしてある)を以下に付けておくので、よければ追試してみてほしい。

#! /bin/sh
CONLL=http://universaldependencies.org/conll18/conll18_ud_eval.py
CENTER='https://corpus.kanji.zinbun.kyoto-u.ac.jp/gitlab/Kanbun/ud-kanbun/-/archive/master/ud-kanbun-master.zip?path=center-exam'
# pip3 install -U udkanbun

TMP=/tmp/center-exam$$
trap "rm -fr $TMP ; exit 2" 1 2 3 15
mkdir $TMP
cd $TMP
python3 -c '
import urllib.request,zipfile
f,h=urllib.request.urlretrieve("'"$CENTER"'")
with zipfile.ZipFile(f) as z:
  z.extractall("center-exam")
f,h=urllib.request.urlretrieve("'"$CONLL"'","eval.py")
'
ls -dr center-exam/*/center-exam/???? |
( while read D
  do echo '****' `basename $D`
     cat $D/???.txt | tee gold.conllu |
     sed -n 's/^# text = //p' | udkanbun > udkanbun.conllu
     python3 eval.py gold.conllu udkanbun.conllu
  done
)
rm -fr $TMP
exit 0

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...