パスワードを忘れた? アカウント作成

zaucerさんのトモダチの日記。 スラドのTwitterでストーリをフォローしよう。

14642027 journal
人工知能

yasuokaの日記: Re: 変体漢文をUniDic品詞で表すことができるか

日記 by yasuoka

昨日の日記の続きだが、「汝者我見欺」をUniDic品詞のUniversal Dependenciesで表すことはできるだろうか。

1    汝    汝    PRON    代名詞    _    5    nsubj:pass    _    SpaceAfter=No
2    者    は    ADP    助詞-係助詞    _    1    case    _    SpaceAfter=No
3    我    我    PRON    代名詞    _    5    obl    _    SpaceAfter=No
4    見    れる    AUX    助動詞    _    5    aux    _    SpaceAfter=No
5    欺    欺く    VERB    動詞-一般    _    0    root    _    SpaceAfter=No

係り受け関係については、2018年2月14日の日記を踏襲した。UniDic品詞であれば、「者」を「助詞-係助詞」にできる点がうれしい。ふーむ、やはり変体漢文は、UniDic品詞の方が合うのかしら。

14616130 journal
人工知能

yasuokaの日記: 変体漢文をUniDic品詞で表すことができるか

日記 by yasuoka

昨日の日記の続きだが、変体漢文が中古日本語の一種だとして、UniDic品詞によるUniversal Dependenciesで表すことはできるだろうか。『吾妻鏡』の「二品以銀作猫被宛贈物」で、少し考えてみよう。

1    二品    二品    NOUN    名詞-普通名詞-一般    _    6    nsubj    _    SpaceAfter=No
2    以    持つ    VERB    動詞-一般    _    6    advcl    _    SpaceAfter=No
3    銀作    銀作    NOUN    名詞-普通名詞-一般    _    4    nmod    _    SpaceAfter=No
4    猫    猫    NOUN    名詞-普通名詞-一般    _    2    obj    _    SpaceAfter=No
5    被    られる    AUX    助動詞    _    6    aux    _    SpaceAfter=No
6    宛    当てる    VERB    動詞-一般    _    0    root    _    SpaceAfter=No
7    贈物    贈り物    NOUN    名詞-普通名詞-一般    _    6    obl    _    SpaceAfter=No

「二品」「銀作」「贈物」を1語とみなすべきかどうか、ちょっと悩んだのだが、そこさえ割り切れば、あとは、私(安岡孝一)個人としては、思いのほかスンナリ書けた。うーむ、変体漢文専用の品詞体系を作るより、UniDic品詞を借りた方がいいのかな。

14543558 journal
日本

yasuokaの日記: 変体漢文の言語コードはojpなのか

日記 by yasuoka

ISO 639-3の言語コードojp「Old Japanese」が、いったいどういう言語を対象としているのか、微妙に気になった。Multitreeのojpのページは、7~10世紀の日本語を想定しているらしいが、書写言語としてのojpがどういうものなのか、記述がない。

ojpの「Old Japanese」が、いわゆる「古文」だとして、さて、そこに変体漢文は含まれているのだろうか。こういうの、いったい誰に聞いたらいいんだろ?

14483513 journal
日本

yasuokaの日記: 全国1896市区町村のデジタル戸籍化が完了

日記 by yasuoka

御蔵島村の電算戸籍が本日(9月28日)無事に稼働した、との御連絡をいただいた。これで、全国1896市区町村のデジタル戸籍化が完了したことになる。私(安岡孝一)個人としても非常にうれしく、関係各位には感謝の意を申し上げる。

ただ、戸籍のデジタル化を完全に完了させるためには、各市区町村に1~2%ほど残っている改製不適合簿(いわゆる紙戸籍の事故簿)を、何とかデジタル化しないといけない。デジタル化できない理由の一つだった氏名の漢字については、まあまあ文字コード化の見通しがついてきたが、変体仮名については恐ろしく手ごわい。戸籍デジタルシステムの稼働に向け、もう少し私自身も頑張ってみようと思う。

14457303 journal
人工知能

yasuokaの日記: タイ語係り受け解析モジュールspaCy-Thai仮リリース

日記 by yasuoka

pythainlpUDPipespaCyを組み合わせて、タイ語の係り受け解析モジュールspaCy-Thaiを作ってみた。インストールは

$ pip3 install spacy_thai --user

一発でOKのはずだが、インストールにはg++が必要だ。また、Cygwinの場合は

$ pip3.7 install spacy_thai --no-build-isolation

としてほしい。インストールがうまくいったら、昨日の日記で示した「แผนกนี้กำลังเผชิญกับความท้าทายใหม่」を係り受け解析してみよう。

$ python3
>>> import spacy_thai
>>> nlp=spacy_thai.load()
>>> doc=nlp("แผนกนี้กำลังเผชิญกับความท้าทายใหม่")
>>> import deplacy
>>> deplacy.render(doc)
แผนก  NOUN ═╗<══════╗ nsubj
นี้     DET  <╝       ║ det
กำลัง  AUX  <══════╗ ║ aux
เผชิญ  VERB ═══╗═╗═╝═╝ ROOT
กับ    ADP  <╗ ║ ║     case
ความ  PART ═╝<╝ ║     obl
ท้าทาย VERB ═╗<══╝     xcomp
ใหม่   ADV  <╝         advmod

私(安岡孝一)の手元では上の結果になったのだが、うーむ、まだまだ解析が甘い。何とか「ความ」=acl⇒「ท้าทาย」になるよう、頑張ってチューニングしなきゃダメかな。

14439735 journal
日本

mujiの日記: 九月大歌舞伎

日記 by muji

千穐楽おめでとうございました。
四部まで無事はねたよ…休演日以外の休演も中断もなしで…
そりゃまあ8月より客足は減っただろうし出演者増やしてもその増やした部が一番客が来なくてソーシャルディスタンス遵守なんてもんじゃなかった訳で(それをいうなorz)その点では8月よりも安全だったかもしれんが、そうはいっても裏の人数的には8月よりも多かったはずで、それで1か月乗り切ってしまったというのは、ねえ。
それでも10月は各部の間を2時間ずつ開けるし(8・9月は長くて1時間50分だった)一部と四部は多分30分で終わるし、国立が11月に至って休演日2日にしたのとは端から姿勢が違うよね…
国立の二部制っても、座席割は歌舞伎座と同じ3席種で料金はそれぞれ1000円ずつしか違わないんで、正直ビミョーなんだよなあ。殊に3等2000円。つい数年前までは1500円だったのに、と思うと、値上げ率の高さが不条理で(若干言いがかり的←

閑話。
楽日なので3A相当席は東西とセンブロとその両側が昨日時点では空席なしだったが今日実際に見た限りでは西席は半分埋まってなかった。一等花外は不在。いやだったらこっちルクサ席に回してくれてもよかったんだよ???←
とまあ、今後に明らかに影響するであろう客入りで、それでも24日間舞台をつとめた対面面子には何と言葉をかければよいものやら…ありがたなすびの初夢だもさ、というのも痛々しくて。客席が暖まらないと舞台も冷える、てのはこれまでにも感じてきていることなので、暖まる以前の問題だった今月はホントにもうねぇ。
そんな中でも、楽日まで揚幕の中からの第一声の高さを保って、「十郎も悔しいんだな」というのを松緑に再認識させたほどの、穏やかさ柔らかさの中に口惜しさ無念さをにじませた十郎。六代目の口伝にほぼ忠実に、それでも決して教科書通りに留まらない、錦之助ならではの十郎。
あー、でも今日は今月聴いてきた中で一番はっきり子音が混じってたwww明らかに「り」と「い」の間の発音だったwwwいやそこは「い」でもよかったんですよ?wwwただもうね、その前後も含めての台詞回しと所作ね、芯の通った柔らかみってのはこういうことだよね、とただただ惚れ惚れ眺めるしかないよねと。そう思い起こしてみると、静の状態から次の動作に移るときの首の使い方とか、動かした手を元の膝の上に収めるときのスローモーションにも似た置き方とか、これまでに会得してきたものをここまで自然に出せるようになったんだなあ、と。
正直、五郎の爆発力が客席の温度と比例してた感があったんで、他の五郎なら更に対比が鮮やかになっただろうなあと思わないでもなく。とはいえ、この十郎も、この状況下でヤマタケが流れたおかげの十郎でもあったんでね……
足の運び、島台の持ち方、五郎を留める手の形と位置、「すけない」、土器のしずくを懐紙で押さえてから三方へ戻す、袴の裾を引いてから足の甲を舞台につける心持ち、と、主だったところ全てではないにせよ、これだけ口伝を体現する十郎が今後観られるだろうか。前述したが、無論そこまでしなくても雰囲気が十郎であればいいっちゃあいいんだろうが、では藝の継承とは何ぞや、ってことにもなるだろうしね…

 #今回も対面の稽古は2日間だけだったらしいが、2日で五郎やらされたのとは大分違うよねとw
 #ああ、そいや「三郎」も「さむろう」に近い発音だったなあ。河津三郎と八幡三郎で。だから錦之助と莟玉が「さむろう」発音していた。ふむ。

14432669 journal
人工知能

yasuokaの日記: 「ความท้าทาย」は1語なのか2語なのか3語なのか

日記 by yasuoka

私(安岡孝一)の6月20日の日記の読者から、thai-segmenterというタイ語の形態素解析器をお教えいただいた。

$ pip3 install thai-segmenter --user

で簡単にインストールできるので、試しに「แผนกนี้กำลังเผชิญกับความท้าทายใหม่」を解析してみることにした。

$ python3
>>> from thai_segmenter.tasks import tokenize_and_postag,get_segmenter
>>> nlp=lambda t:tokenize_and_postag(t,get_segmenter())
>>> doc=nlp("แผนกนี้กำลังเผชิญกับความท้าทายใหม่")
>>> print(doc.pos)
[('แผนก', 'NCMN'), ('นี้', 'DDAC'), ('กำลัง', 'XVBM'), ('เผชิญ', 'NCMN'), ('กับ', 'RPRE'), ('ความ', 'FIXN'), ('ท้า', 'NPRP'), ('ทาย', 'VACT'), ('ใหม่', 'ADVN')]

この結果を見る限り、「ความท้าทาย」を「ความ」「ท้า」「ทาย」の3語に分けて、「ความ」を名詞化接頭辞、「ท้า」を固有名詞、「ทาย」を動作動詞だとみなしているようだ。うーむ、さすがに3語に分けるのは無理な気がするので、この例に関してはpythainlpの方がいいかな。

14413812 journal
人工知能

yasuokaの日記: コプト語係り受け解析モジュールspaCy-Coptic仮リリース

日記 by yasuoka

昨日の日記で紹介したcoptic-nlpだが、spaCy-Copticというpython3モジュールとして仮リリースした。ただ、coptic-nlpは、JavaFomaが必要な上に、scikit-learnを旧版(0.23以前)に戻さねばならない、というヤヤコシサがあったので、とりあえずはWebAPIを使う仕掛けにしてみた。この結果、spaCy-Copticのインストールは簡単で

$ pip3 install spacy_coptic --user

一発でOKだ。ただ、Cygwinの場合は

$ pip3.7 install spacy_coptic --no-build-isolation

としてほしい。インストールがうまくいったら、昨日と同様「ⲙⲟⲟϣⲉ ϩⲱⲥ ϣⲏⲣⲉ ⲙ̄ⲡⲟⲩⲟⲉⲓⲛ」を係り受け解析してみよう。

$ python3
>>> import spacy_coptic
>>> nlp=spacy_coptic.load()
>>> doc=nlp("ⲙⲟⲟϣⲉ ϩⲱⲥ ϣⲏⲣⲉ ⲙ̄ⲡⲟⲩⲟⲉⲓⲛ")
>>> import deplacy
>>> deplacy.render(doc)
ⲙⲟⲟϣⲉ  VERB  ═════════╗ ROOT
ϩⲱⲥ    CCONJ <══════╗ ║ mark
ϣⲏⲣⲉ   NOUN  ═════╗═╝<╝ advcl
ⲙ̄      ADP   <══╗ ║     case
ⲡ      DET   <╗ ║ ║     det
ⲟⲩⲟⲉⲓⲛ NOUN  ═╝═╝<╝     nmod

ちゃんと解析できているようだ。フォントが等幅でなくて、表示が乱れる場合は

>>> deplacy.render(doc,WordRight=True)

も試してみてほしい。

14404514 journal
Google

yasuokaの日記: coptic-nlpのコプト語係り受け解析をGoogle Colaboratoryで動かす

日記 by yasuoka

思うところあって、コプト語係り受け解析器coptic-nlpを、Google Colaboratoryで動かしてみた。

!apt install foma-bin
!test -d coptic-nlp || git clone --depth=1 https://github.com/CopticScriptorium/coptic-nlp
!test -f coptic-nlp/bin/foma/foma || ln -s /usr/bin/foma /usr/bin/flookup coptic-nlp/bin/foma
!echo Y | python coptic-nlp/coptic_nlp.py -penmult -
!echo ⲙⲟⲟϣⲉ ϩⲱⲥ ϣⲏⲣⲉ ⲙ̄ⲡⲟⲩⲟⲉⲓⲛ > tmpin.txt
!python coptic-nlp/coptic_nlp.py -penmult tmpin.txt

「ⲙⲟⲟϣⲉ ϩⲱⲥ ϣⲏⲣⲉ ⲙ̄ⲡⲟⲩⲟⲉⲓⲛ」という例文を係り受け解析してみたところ、私(安岡孝一)の手元では、以下のようになった。

<norm_group orig_group="ⲙⲟⲟϣⲉ" norm_group="ⲙⲟⲟϣⲉ">
<norm xml:id="u1" pos="V" lemma="ⲙⲟⲟϣⲉ" func="root" orig="ⲙⲟⲟϣⲉ" norm="ⲙⲟⲟϣⲉ">
ⲙⲟⲟϣⲉ
</norm>
</norm_group>
<norm_group orig_group="ϩⲱⲥ" norm_group="ϩⲱⲥ">
<norm xml:id="u2" pos="CONJ" lemma="ϩⲱⲥ" lang="Greek" func="mark" head="#u3" orig="ϩⲱⲥ" norm="ϩⲱⲥ">
ϩⲱⲥ
</norm>
</norm_group>
<norm_group orig_group="ϣⲏⲣⲉ" norm_group="ϣⲏⲣⲉ">
<norm xml:id="u3" pos="N" lemma="ϣⲏⲣⲉ" func="advcl" head="#u1" orig="ϣⲏⲣⲉ" norm="ϣⲏⲣⲉ">
ϣⲏⲣⲉ
</norm>
</norm_group>
<norm_group orig_group="ⲙ̄ⲡⲟⲩⲟⲉⲓⲛ" norm_group="ⲙⲡⲟⲩⲟⲉⲓⲛ">
<norm xml:id="u4" pos="PREP" lemma="ⲛ" func="case" head="#u6" orig="ⲙ̄" norm="ⲙ">
ⲙ̄
</norm>
<norm xml:id="u5" pos="ART" lemma="ⲡ" func="det" head="#u6" orig="ⲡ" norm="ⲡ">

</norm>
<norm xml:id="u6" pos="N" lemma="ⲟⲩⲟⲉⲓⲛ" func="nmod" head="#u3" orig="ⲟⲩⲟⲉⲓⲛ" norm="ⲟⲩⲟⲉⲓⲛ">
ⲟⲩⲟⲉⲓⲛ
</norm>
</norm_group>

うーむ、なかなかフォーマットが手ごわい。マニュアルによれば「--outmode conllu」というオプションもあるはずなのだが、係り受け解析では動作しないようだ。さて、どうしたらいいかな。

14398355 journal
日本

mujiの日記: 九月大歌舞伎

日記 by muji

休暇はあっちう間に終わってしまうのは世の習。
そしてこの11連休中に木挽町へ行ったのは、というか行かなかったのは何日? て方が勘定しやすいな←
総入れ替え制を取っている以上、待ち時間でのリスク(近隣ぶらぶらするにしろ屋内で飲食するにしろ)を考えると連続した複数部を観る気はまだないので(同一日に一部と四部なんてときには間に移動を伴う用事が挟まる)、必然的に単日単数部が基本となる訳で、そうなるとこれまた必然的に木挽町へ足を運ぶ回数も増える、と。
なーんて理屈こねようが何しようが回数増えてるのは一部だけだけどね!←

連休最終日は3階東から。
一度は十郎のにじりにじりをじっくり観察、と思って押さえて置いた席だが、
し ま っ た も っ と 早 い う ち か ら こ の 位 置 で 観 る ん だ っ た orz
もう観察どころじゃないね、こんなに十郎の様子が鮮やかに見えるとは迂闊だった…錦之助の表情の癖である、左眉だけくっ、と下がった状態で、かつ責任と不安が入り交じった心配顔で五郎のごたく(ごたくってw)を聴きつつじりじりと間を詰めて、五郎が三方に手をかけたあとは右手先から右掌全部舞台につけた状態で見せる緊迫した表情。うわーこの場面だけでも毎日3階東から観たかったよ←流石に東側から狙った写真なんてないしさー。
そして面白いことに、3階だと例の台詞回しに子音が若干混じって聞こえる。下界で聴いてると母音だけなんだけどねー。一息で、の口伝がある箇所は相変わらず1回切ってるっぽいけどはっきり切ってる感じでもないので上手い具合に切れない風に聞こえるようにしているか。
幕切れの裾引き、今日はいまいちだったwが、裾を払ってから膝を内側に入れるのがよく判った。これは確実に足の甲をつける心持ち、というか多分つくくらいにまでひねってる。これも過去画像を見てるとそこまでやってないっぽいのが多いねー。左膝の位置が高い。内側に入ってるは入ってる感じだけれども、立てた左膝をちょっと内側へ倒してみました程度が多い感じ。ひどいと膝は立ったまましかも裾が引けてない! のまであった。ただタイミング的に完全に絵面に決まった時点ではないのを報道写真に使われたっぽいんで、そこから裾を払った可能性もなきにしもあらず、だが、あの状態からは払ってないだろう恐らく。誰に教わってんだ……
てのを鑑みると、日頃のストレッチ効果wなのか、関節の可動域がかなり広いなあと。相当ねじれた姿勢になるからキツいはキツいだろうし、だからこそ膝が立ってる方が多いんだろうし。そういう点でも実に十郎らしい十郎ではなかろうか。

とうらぶというか刀ミュ方面からぽつぽつ観に来てて、でも刀ミュの参考にって観に来てるから恐らくはリピーターにはならんだろうけど(次は助六観たい、とかいう声もあったし)、なまじ歌舞伎そこそこ観てる勢よりかは余程愉しんで・それぞれの審神者なりに味わって観ているなあという感がある。客席寂しいとかそのせいで祝祭感に乏しいとか言葉判らないから字幕つけろとか、ネガティヴな声が上がってるのって歌舞伎そこそこ観てる勢からだもんね。うむ、こういう点は見習わないとかも。自戒も込めて←
 #まあ無理だ(ちょwww
だって客席寂しいのは事実だし音響ク●なのも事実だから東席で客少ないと役者の声まで妙な響きが混ざったりしてて気になるんだもんorz客少ないといえば2階席はセンターに2名だけ、てのもねぇ。ホントこの状況はいろいろと痛い。二部以降はまあまあ入っているとはいえ、結局1日たりともチケ松空席状況に△や×がつく日がなかった訳で…と今見たら楽日の二部以降の3階席は×なのか。四部は二等も×なのか。てえこた一部だけは1日たりとも、だな。しかも10月は既に一部日程の一部席種で△がある。どうなのよこれ。
それで来月歌舞伎座や国立に出演予定がある勢はまだしもねぇ……(´・ω・`)

typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...