パスワードを忘れた? アカウント作成
14432669 journal
人工知能

yasuokaの日記: 「ความท้าทาย」は1語なのか2語なのか3語なのか

日記 by yasuoka

私(安岡孝一)の6月20日の日記の読者から、thai-segmenterというタイ語の形態素解析器をお教えいただいた。

$ pip3 install thai-segmenter --user

で簡単にインストールできるので、試しに「แผนกนี้กำลังเผชิญกับความท้าทายใหม่」を解析してみることにした。

$ python3
>>> from thai_segmenter.tasks import tokenize_and_postag,get_segmenter
>>> nlp=lambda t:tokenize_and_postag(t,get_segmenter())
>>> doc=nlp("แผนกนี้กำลังเผชิญกับความท้าทายใหม่")
>>> print(doc.pos)
[('แผนก', 'NCMN'), ('นี้', 'DDAC'), ('กำลัง', 'XVBM'), ('เผชิญ', 'NCMN'), ('กับ', 'RPRE'), ('ความ', 'FIXN'), ('ท้า', 'NPRP'), ('ทาย', 'VACT'), ('ใหม่', 'ADVN')]

この結果を見る限り、「ความท้าทาย」を「ความ」「ท้า」「ทาย」の3語に分けて、「ความ」を名詞化接頭辞、「ท้า」を固有名詞、「ทาย」を動作動詞だとみなしているようだ。うーむ、さすがに3語に分けるのは無理な気がするので、この例に関してはpythainlpの方がいいかな。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

犯人は巨人ファンでA型で眼鏡をかけている -- あるハッカー

読み込み中...