yasuokaの日記: 自動漢文訓読システムとしてのSuPar-Kanbun+UD-Kundoku
昨日の日記で公開したSuPar-Kanbunだが、ちょっと改造してUD-Kundokuと繋げられるようにした。pip一行でインストールできるが、何せ言語モデルが巨大なので、Google Colaboratoryで動かしてみよう。
!pip install 'suparkanbun>=0.9.1' 'udkundoku>=1.9.0'
import suparkanbun,udkundoku
nlp=suparkanbun.load(BERT="guwenbert-large",Danku=True)
doc=nlp("吾有千里馬毛骨何蕭森疾馳如奔風白日無留陰徐駆当大道歩驟中五音馬雖有四足遅速在吾心六轡応吾手調和如瑟琴東西与南北高下山与林惟意所欲適九州可周尋至哉人与馬両楽不相侵伯楽識其外徒知価千金王良得其性此術固已深良馬須善馭吾言可為箴")
kun=udkundoku.translate(doc)
print(kun.sentence())
1月16日の共通テスト『国語』第4問【問題文I】を自動訓読してみたところ、私(安岡孝一)の手元では以下の結果になった。
吾は千里馬有り
毛の骨は何ぞ蕭なりて森なり
疾馳して風に奔るが如し
白日に陰を留めること無し
徐して駆りて大道を当る
歩驟は五音を中る
馬は四足有りと雖も
遅速は吾の心に在り
六轡は吾の手を応ず
調和は瑟の琴の如し
東西は南北とも
高ずるは山林ともを下す
ただ意ふは適さんと欲する所
九州は周きべく尋く
至るか人馬とも
両の楽はたがいに侵さず
伯楽は其の外を識る
徒に価に千金を知る
王良は其の性を得る
此の術は固く已に深す
良馬は善く馭するべし
吾の言は箴を為すべし
うーむ、読めてるような、読めてないような。ただ、2月2日の日記で示したGuwenCOMBOよりは、少しばかり精度が上がってる気がする。比較にRIBES使ってみた方がいいかしら。
自動漢文訓読システムとしてのSuPar-Kanbun+UD-Kundoku More ログイン