パスワードを忘れた? アカウント作成

スラドのストーリを選ぶための補助をお願いします。

13953573 journal
人工知能

yasuokaの日記: GiNZA v2.0.0で読む『吾輩は猫である』

日記 by yasuoka

日本語係り受け解析エンジンGiNZAのv2.0.0がリリースされたので、さっそく使ってみることにした。まずはインストール。

% pip3 install https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz

インストールがうまくいったら、5月20日の日記と同様、言語処理100本ノック2015の『吾輩は猫である』から、「ヴァイオリンを始める」文をGiNZAで探してみよう。

13951200 journal
人工知能

yasuokaの日記: 「知を致すは物に格るに在り」の「に」はcliticかaffixか

日記 by yasuoka

一昨日のChamame2UD.pyを使って、漢文の読み下し文を係り受け解析していたところ、「知を致すは物に格るに在り」がうまく解析できないことに気づいた。

13949759 journal
人工知能

yasuokaの日記: Web茶まめとUDPipe APIの両方にアクセスできるpythonラッパー

日記 by yasuoka

一昨日の日記で書いた「Chamame2UD.py」を、6月6日の日記で書いた「UDPipe2UD.py」と統合して、Web茶まめUDPipe APIの両方にアクセスできるpythonラッパーを書いてみた。python3のみならず、python2.7にも対応したので、さらに読みにくくなってしまったが、とりあえず公開する。

13947661 journal
人工知能

yasuokaの日記: Web茶まめとUDPipeの組み合わせによる旧字旧かな係り受け解析の改良

日記 by yasuoka

昨日の日記で書いた「Chamame2UD.py」だが、接尾辞を処理し忘れていたのに気づいたので、ざっと書き直してみた。ついでにpython2.7にも対応したので、かなり読みにくくなってしまった。旧字旧かなで書かれた文を係り受け解析したい人々が、どのくらい読者にいるのか不明なのだが、それでも公開することにする。

#! /usr/bin/python -i
# coding=utf-8
# "Chamame2UD.py" by 安岡孝一, July 1, 2019.

13946844 journal
人工知能

yasuokaの日記: Web茶まめとUDPipeの組み合わせによる旧字旧かな係り受け解析 1

日記 by yasuoka

旧字旧かなで書かれた文を係り受け解析すべく、旧仮名口語UniDicと、UDPipeの日本語モデルを組み合わせてみることにした。具体的には、国立国語研究所のWeb茶まめで形態素解析をおこなったのち、LINDAT/CLARINのUDPipe APIで依存文法解析をおこなうpython3ラッパー「Chamame2UD.py」を書いてみた。

13945493 journal
人工知能

yasuokaの日記: COTOHA APIのUniversal Dependencies向けpythonラッパー

日記 by yasuoka

昨日の日記のアイデアに沿って、COTOHA API構文解析v1のUniversal Dependencies向けpythonラッパー「Cotoha2UD.py」を書き直してみた。python3のみならず、python2.7にも対応したため、かなり長くなってしまった。

#! /usr/bin/python -i
# coding=utf-8
# "Cotoha2UD.py" by 安岡孝一, June 28, 2019.

13944375 journal
人工知能

yasuokaの日記: 「着たくない服は着ない」の「ない」はcliticかaffixか

日記 by yasuoka

村脇有吾の「On the Definition of Japanese Word」(arXiv、2019年6月24日)を読んでいたところ、ふっとCOTOHA APIに思い至った。COTOHA API構文解析v1は、いわゆる「超短単位」なので、そのままUniversal Dependenciesに変換すると、単語が短くなりすぎるのだ。以前、私(安岡孝一)が作ったCotoha2UD.pyで、「着たくない服は着ない」という文を解析してみよう。

13943661 journal
中国

yasuokaの日記: 戸籍と在留カードにおける「陳」と「陣」

日記 by yasuoka

『戸籍時報』の今月号を読んでいたところ、堀田百合の「届書及び添付書類に記載されている中国人の氏名の漢字が簡体字で記載されている場合の取扱いについて」(pp.74-78)という記事に出くわした。戸籍における「正字」と、在留カードにおける「正字」が、どう異なっているかを解説した記事で、その点では面白いものだったが、残念ながら「問」の立て方が甘くて、内容としてはイマイチだった。

13941283 journal
アメリカ合衆国

yasuokaの日記: タイプライターの名づけ親は誰なのか

日記 by yasuoka

ネットサーフィンしていたところ、講談社ブルーバックスのサイトで「6月23日 世界初のタイプライター(1868年)」(サイエンス365days、2019年6月23日)という記事を見つけた。

この日、アメリカの新聞記者で、発明家のクリストファー・レイサム・ショールズ(Christopher Latham Sholes、1819-1890)が取得した、世界初の実用的なタイプライターの特許が発効されました。

13940582 journal
アメリカ合衆国

yasuokaの日記: Universal Dependenciesの拡張による「They shut the station down」の直接構成鎖解析

日記 by yasuoka

私(安岡孝一)の2月26日の日記で議論した「They shut the station down」だが、どうやらcompound:prt(あるいは全てのcompound)を特別扱いすることで、構成鎖不可分性を自動抽出できそうな気配になってきた。具体的には、以下のようなcatena_inseparability付きUniversal Dependenciesが、抽出できればいいということになる。

13936969 journal
人工知能

yasuokaの日記: Re:「これが僕は正しいと思う」の直接構成鎖解析木をGraphvizで可視化する

日記 by yasuoka

昨日の日記で例に挙げた「これが僕は正しいと思う」

13935963 journal
人工知能

yasuokaの日記: 「これが僕は正しいと思う」の直接構成鎖解析木をGraphvizで可視化する

日記 by yasuoka

昨日の日記を読みつつ、直接構成鎖解析木に交差が起こる場合も考えてみることにした。『Universal Dependenciesの拡張にもとづく古典中国語(漢文)の直接構成鎖解析の試み』の付録で例に挙げた「これが僕は正しいと思う」を、少し考えてみよう。

13935542 journal
人工知能

yasuokaの日記: Re: 「望遠鏡で泳ぐ彼女を見た」の直接構成鎖解析木をGraphvizで可視化する

日記 by yasuoka

昨日の日記で書いたGraphvizによる直接構成鎖解析木だが、いくつか試した結果、最下段の単語列にあたる層はrank=sinkではなく、全体を一つのshape=recordで書いた方がいい、という結論に至った。とりあえず、「望遠鏡で泳ぐ彼女を見た」の構成鎖不可分性付きUniversal Dependenciesを見直してみよう。

typodupeerror

物事のやり方は一つではない -- Perlな人

読み込み中...