yasuokaの日記: 「ความท้าทาย」は1語なのか2語なのか3語なのか
日記 by
yasuoka
私(安岡孝一)の6月20日の日記の読者から、thai-segmenterというタイ語の形態素解析器をお教えいただいた。
$ pip3 install thai-segmenter --user
で簡単にインストールできるので、試しに「แผนกนี้กำลังเผชิญกับความท้าทายใหม่」を解析してみることにした。
$ python3
>>> from thai_segmenter.tasks import tokenize_and_postag,get_segmenter
>>> nlp=lambda t:tokenize_and_postag(t,get_segmenter())
>>> doc=nlp("แผนกนี้กำลังเผชิญกับความท้าทายใหม่")
>>> print(doc.pos)
[('แผนก', 'NCMN'), ('นี้', 'DDAC'), ('กำลัง', 'XVBM'), ('เผชิญ', 'NCMN'), ('กับ', 'RPRE'), ('ความ', 'FIXN'), ('ท้า', 'NPRP'), ('ทาย', 'VACT'), ('ใหม่', 'ADVN')]
この結果を見る限り、「ความท้าทาย」を「ความ」「ท้า」「ทาย」の3語に分けて、「ความ」を名詞化接頭辞、「ท้า」を固有名詞、「ทาย」を動作動詞だとみなしているようだ。うーむ、さすがに3語に分けるのは無理な気がするので、この例に関してはpythainlpの方がいいかな。
「ความท้าทาย」は1語なのか2語なのか3語なのか More ログイン