yasuokaの日記: 自動漢文訓読システムとしてのGuwenCOMBO
昨日の日記で公開したGuwenCOMBOだが、UD-Kundokuの機能を一部借りて、漢文訓読できるようにしてみた。とりあえず、インストール。
$ pip3 install -U guwencombo --user
インストール(バージョンアップ)がうまくいったら、GuwenBERT-largeを使って、1月16日の共通テスト『国語』第4問【問題文I】を自動訓読してみよう。
$ python3
>>> import guwencombo
>>> nlp=guwencombo.load(BERT="large",Danku=True)
>>> doc=nlp("吾有千里馬毛骨何蕭森疾馳如奔風白日無留陰徐駆当大道歩驟中五音馬雖有四足遅速在吾心六轡応吾手調和如瑟琴東西与南北高下山与林惟意所欲適九州可周尋至哉人与馬両楽不相侵伯楽識其外徒知価千金王良得其性此術固已深良馬須善馭吾言可為箴")
>>> kun=guwencombo.translate(doc)
>>> print(kun.sentence())
吾は千里馬有り
毛の骨は何ぞ森を蕭なり
疾びて馳けるは風に奔るが如し
白日は陰に留めること無し
徐して駆るは大道を当る
驟中に歩きて五音
馬は四足有りと雖も
遅速は吾の心に在り
六轡は吾の手を応ず
和すを調べるは瑟琴の如し
東西南とも北
下の山林ともを高ず
ただ適さんと欲する所を意ふ
九州は尋を周きべし
至るか人馬とも
両の楽はたがいに侵さず
伯楽は其の外を識る
徒に価に千金を知る
王良は其の性を得る
此の術は固く已に深す
良馬は善く馭するべし
吾の言は箴を為すべし
うーむ、読めてるような、読めてないような。ただ、これの精度を上げようとするなら、今度は目的言語側(decoder)をいじらなきゃいけないので、たとえば近代日本語のBERTモデルが必要になる気がする。さて、さて、何かいい方法あるかな…。
自動漢文訓読システムとしてのGuwenCOMBO More ログイン