パスワードを忘れた? アカウント作成
15415417 journal
人工知能

yasuokaの日記: roberta-base-thai-syllable-uposによるタイ語の形態素解析

日記 by yasuoka

ネットサーフィンしていたところ、VISTEC-depaのサイトで「WangchanBERTa: Pre-trained Thai Language Model」というページを見つけた。タイ語の事前学習モデルを、色々と作成しているらしい。単語切りに際し4種類のアルゴリズムを試しているのだが、私(安岡孝一)が見た感じではsyllable(音節)を元にする手法が良さげである。ただ、wangchanberta-base-wiki-syllableは独自のトークナイザを使っているので、これをTransformersのPreTrainedTokenizerFastにムリヤリ落とし込み、roberta-base-thai-syllableというRobertaモデルを公開した。次に、このモデルをUPOSでファインチューニングして、タイ語の形態素解析(単語切り+品詞付与)モデルroberta-base-thai-syllable-uposを公開した。ちょっと使ってみよう。

$ python3
>>> import torch
>>> from transformers import AutoTokenizer,AutoModelForTokenClassification
>>> tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/roberta-base-thai-syllable-upos")
>>> model=AutoModelForTokenClassification.from_pretrained("KoichiYasuoka/roberta-base-thai-syllable-upos")
>>> s="หลายหัวดีกว่าหัวเดียว"
>>> t=tokenizer.tokenize(s)
>>> p=[model.config.id2label[q] for q in torch.argmax(model(tokenizer.encode(s,return_tensors="pt"))[0],dim=2)[0].tolist()[1:-1]]
>>> print(list(zip(t,p)))
[('หลาย', 'DET'), ('หัว', 'NOUN'), ('ดี', 'ADJ'), ('กว่า', 'ADP'), ('หัว', 'NOUN'), ('เดียว', 'ADJ')]

「หลายหัวดีกว่าหัวเดียว」を形態素解析した結果は、どうやら完璧のようだ。ふーむ、この手法の延長線上で、何とかタイ語の係り受け解析もできないかな。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

普通のやつらの下を行け -- バッドノウハウ専門家

読み込み中...