パスワードを忘れた? アカウント作成
15550478 journal
人工知能

yasuokaの日記: gojiteji/byt5-small-ain-jpn-mtによるアイヌ語→日本語自動翻訳

日記 by yasuoka

gojiteji/byt5-small-ain-jpn-mtという言語モデルがリリースされているのを見つけた。名前からすると、ByT5によるアイヌ語→日本語自動翻訳モデルのようだ。試しに使ってみよう。

$ pip3 install -U transformers --user
$ python3
>>> from transformers import AutoTokenizer,AutoModelForSeq2SeqLM,TranslationPipeline
>>> tkz=AutoTokenizer.from_pretrained("gojiteji/byt5-small-ain-jpn-mt")
>>> mdl=AutoModelForSeq2SeqLM.from_pretrained("gojiteji/byt5-small-ain-jpn-mt")
>>> pipeline=TranslationPipeline(model=mdl,tokenizer=tkz)
>>> print(pipeline("itak=as awa pon rupne aynu ene itaki"))
Your input_length: 37 is bigger than 0.9 * max_length: 20. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)
[{'translation_text': '私が言うと、'}]

どうもmax_lengthのデフォルト値が小さ過ぎるようだ。ちょっと伸ばしてみよう。

>>> print(pipeline("itak=as awa pon rupne aynu ene itaki",max_length=384))
[{'translation_text': '私が言うと、年配の男性がこう言ったのだ。'}]

「pon rupne aynu」を「年配の男性」と訳すべきかどうかは、議論の余地があると思うが、全体としては、そこそこ訳せているように見える。逆方向のgojiteji/byt5-small-jpn-ain-mtもあるし、すごいなぁ、どうやって作ったんだろ。

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond

読み込み中...