yasuokaの日記: gojiteji/byt5-small-ain-jpn-mtによるアイヌ語→日本語自動翻訳
gojiteji/byt5-small-ain-jpn-mtという言語モデルがリリースされているのを見つけた。名前からすると、ByT5によるアイヌ語→日本語自動翻訳モデルのようだ。試しに使ってみよう。
$ pip3 install -U transformers --user
$ python3
>>> from transformers import AutoTokenizer,AutoModelForSeq2SeqLM,TranslationPipeline
>>> tkz=AutoTokenizer.from_pretrained("gojiteji/byt5-small-ain-jpn-mt")
>>> mdl=AutoModelForSeq2SeqLM.from_pretrained("gojiteji/byt5-small-ain-jpn-mt")
>>> pipeline=TranslationPipeline(model=mdl,tokenizer=tkz)
>>> print(pipeline("itak=as awa pon rupne aynu ene itaki"))
Your input_length: 37 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)
[{'translation_text': '私が言うと、'}]
どうもmax_lengthのデフォルト値が小さ過ぎるようだ。ちょっと伸ばしてみよう。
>>> print(pipeline("itak=as awa pon rupne aynu ene itaki",max_length=384))
[{'translation_text': '私が言うと、年配の男性がこう言ったのだ。'}]
「pon rupne aynu」を「年配の男性」と訳すべきかどうかは、議論の余地があると思うが、全体としては、そこそこ訳せているように見える。逆方向のgojiteji/byt5-small-jpn-ain-mtもあるし、すごいなぁ、どうやって作ったんだろ。
gojiteji/byt5-small-ain-jpn-mtによるアイヌ語→日本語自動翻訳 More ログイン