パスワードを忘れた? アカウント作成

maiaさんのトモダチの日記。 あなたのタレコミがスラドを支えます。さぁ、タレこめ!

13944375 journal
人工知能

yasuokaの日記: 「着たくない服は着ない」の「ない」はcliticかaffixか

日記 by yasuoka

村脇有吾の「On the Definition of Japanese Word」(arXiv、2019年6月24日)を読んでいたところ、ふっとCOTOHA APIに思い至った。COTOHA API構文解析v1は、いわゆる「超短単位」なので、そのままUniversal Dependenciesに変換すると、単語が短くなりすぎるのだ。以前、私(安岡孝一)が作ったCotoha2UD.pyで、「着たくない服は着ない」という文を解析してみよう。

% python3 -i Cotoha2UD.py
>>> ja=Cotoha2UD(accessToken="アクセストークン")
>>> s=ja("着たくない服は着ない")
>>> print(s)
1    着    着る    VERB    動詞語幹[A]    _    6    acl    _    SpaceAfter=No
2    た    たい    AUX    動詞接尾辞[形容詞語幹]    _    1    aux    _    SpaceAfter=No
3    く    く    AUX    形容詞接尾辞[連用]    _    1    aux    _    SpaceAfter=No
4    な    ない    AUX    形容詞語幹[アウオ段]    Polarity=Neg    1    aux    _    SpaceAfter=No
5    い    い    AUX    形容詞接尾辞[連体]    _    1    aux    _    SpaceAfter=No
6    服    服    NOUN    名詞    _    8    obj    _    SpaceAfter=No
7    は    は    ADP    連用助詞    _    6    case    _    SpaceAfter=No
8    着    着る    VERB    動詞語幹[A]    _    0    root    _    SpaceAfter=No
9    ない    ない    AUX    動詞接尾辞[終止]    Polarity=Neg    8    aux    _    SpaceAfter=No

SVGで可視化すると、こんな感じ。接尾辞がバラバラになっているので、Universal Dependenciesとしてはマズイことになっている。これを、上記論文のアイデアに従って、affix(接頭辞とか接尾辞)を周りの単語にくっつけると、たとえば以下のようになる。

1    着たく    着る    VERB    動詞語幹[A]+動詞接尾辞[形容詞語幹]+形容詞接尾辞[連用]    _    3    acl    _    SpaceAfter=No
2    ない    ない    AUX    形容詞語幹[アウオ段]+形容詞接尾辞[連体]    Polarity=Neg    1    aux    _    SpaceAfter=No
3    服    服    NOUN    名詞    _    5    obj    _    SpaceAfter=No
4    は    は    ADP    連用助詞    _    3    case    _    SpaceAfter=No
5    着ない    着る    VERB    動詞語幹[A]+動詞接尾辞[終止]    Polarity=Neg    0    root    _    SpaceAfter=No

「着たくない」の「ない」はclitic(接語)なので、「着たく」と「ない」で分ける。「服は」の「は」もcliticなので、「服」と「は」をくっつけない。一方、「着ない」の「ない」はaffixなので、くっつける。SVGで可視化すると、こんな感じ。ふーむ、接尾辞と活用語尾なら、うまく自動でくっつけられる気がするのだけど、さてそれは、ちゃんとcliticとaffixを見分け切れるかしら。

13944265 journal
日記

akiraaniの日記: 暁の軌跡ストーリー更新関係のメモ:7章第2弾前編

日記 by akiraani

 今週の定例メンテでストーリーの更新があった。
 前回更新時に次は7月と予想してたのだけど、思ったより早かった。
 もしかすると、第二段後篇、第三弾前後編であと3回更新が月次でくるのかな。

 しかし、特設サイトの情報のすっかすさはなかなかすごいな。まあ変に情報満載されてもネタバレになるからこれでいいんだけど、何のために作ったんだこのページ。

 このペースだと、次回更新は7月末か8月頭くらいかな? クロスベル独立宣言と思しき話にも言及しているところを見ると、赤い星座のテロでIBCビルが吹っ飛んで消息不明になっているリーヴも7章のどこかで合流して、8章はクロスベルの外でストーリーが進むんだろうかね。
 しかし、ストーリー上はエインセル号使えなくなってるのにウルスラ病院への配達クエストがデイリーで健在なのはどうなのか……。

13944010 journal
日記

taggaの日記: 日本語学校バブルの裏にあるもの

日記 by tagga
  • 弁護士ドットコム. 2019-06-26. 「日本を夢のような国だと誘い込まないで」フィリピン人留学生、日本語学校提訴. https://www.bengo4.com/c_5/n_9809/

現地ブローカー・日本語学校・アルバイト先が、グルのよくあるやつ。 嘘をついて連れてきて、帰れないのをいいことに非合法に働かせて、しかも日本語教育もナニ。

今、日本語学校バブル(とはいえ教職員は非正規で貧)なんだけど、 それがこういう話。 日本語学校の実質的な経営者がアルバイト先も経営しているパターンもそれなりに。

ちょっと前なら自分がキレイと言いはるためにヤー公を入れてたような仕事をカタギがやってるからね。

13943661 journal
中国

yasuokaの日記: 戸籍と在留カードにおける「陳」と「陣」

日記 by yasuoka

『戸籍時報』の今月号を読んでいたところ、堀田百合の「届書及び添付書類に記載されている中国人の氏名の漢字が簡体字で記載されている場合の取扱いについて」(pp.74-78)という記事に出くわした。戸籍における「正字」と、在留カードにおける「正字」が、どう異なっているかを解説した記事で、その点では面白いものだったが、残念ながら「問」の立て方が甘くて、内容としてはイマイチだった。

問 日本人男と中国人女(上海市生まれで現在は日本に在住)の創設的婚姻届が提出されました。届書の氏名欄には「陳家宝」と記載されています。
添付された出生証明書,パスポート,在留カード等(以下「添付書類」という。)に中国人女の氏名が次のように記載されていた場合に日本人男の戸籍の婚姻事項中「配偶者氏名」欄には,どのように記載すべきでしょうか。
(1)「陳家寶」と記載されていた場合
(2)「陳家宝」と記載されていた場合

この2つのケースであれば、話はそんなに難しくない。「上海市生まれ」で実際にヤヤコシイのは、出生証明書やパスポートに以下のような氏名が記載されていた場合だ。

(3)「陈家宝」と記載されていた場合
(4)「阵家宝」と記載されていた場合

記事のタイトルに「中国人の氏名の漢字が簡体字で記載されている場合の取扱い」と謳っているのだから、(3)と(4)は当然、考慮すべきケースのはずだ。というのも、『在留カード等に係る漢字氏名の表記等に関する告示』(平成23年12月26日法務省告示第582号)では、恐ろしいことに「陈」と「阵」を同一視しており、在留カードでは「陳」と「陣」のどちらを選んでもよい。すなわち、出生証明書やパスポートが「阵家宝」なのに、在留カードは「陳家宝」という選択が可能となっているのである。逆に、出生証明書やパスポートが「陈家宝」なのに、在留カードは「陣家宝」というケースもあるわけだ。しかし、堀田百合の記事では、これらのケースを考慮した形跡がない。

(3)' パスポートに「陈家宝」、在留カードに「陣家宝」と記載されていた場合
(4)' パスポートに「阵家宝」、在留カードに「陳家宝」と記載されていた場合

このような場合に、氏名を「陳家宝」とする婚姻届が提出されたら、現場としてはどうするべきなのだろう。私(安岡孝一)個人としては、仕方ないので(3)'(4)'いずれも「陳家宝」のまま受理するしかないと思うのだが、さて、堀田百合の意見はどうなのだろう。

13943137 journal
日記

akiraaniの日記: 本日のねためも 3

日記 by akiraani

インクなしで精密に印刷できる技術、京大が開発 素材を傷つけて光の反射を変える原理(ITmedia)

フィブリル層の周期を調整し、青から赤まで全ての可視光を発色することに成功したそうです。

 色素を使うんじゃなくて、偏光作用を利用するわけか。いやしかし14000dpiはなかなかとんでもないな。

「転売容認?」と主張に批判集まるも「チケットストリート」は「取材拒否」 弁護士は「当事者の自覚がない」とあきれ顔(ITmedia)
 チケットキャンプとやってることが変わらんなぁ……。カジュアルな取引だから業としてじゃないって認識なのだとすると、法務ちゃんと雇ってるのかと言われてもしょうがないが……取材拒否したところをみると本当に顧問弁護士もいないんじゃないだろうかね。

本を裁断せずA3まで見開きで取り込める非破壊スキャナ「Aura」を使ってみた(GIGAZINE)
 なるほど、マーカー付き指ぬきで指を認識するのか。しかし、画像を見る限りゆがみ補正精度はたいしたことなさそうだな。

Twitter連携サービス「TwiGaTen」を自宅で運営しただけで家宅捜索? 神奈川県警と本人を取材(ITmedia)

――今回の家宅捜索は、Twitterの連携サービスを運営していたことが原因で行われたものですか。また、204504bySEさんからは警察官より「該当のわいせつ画像は間違いなく204504bySEさん宅から投稿されたものだ」という説明があったという話も聞かれていますが、該当のIPアドレス情報はTwitter社が開示したのですか。
神奈川県警:お答えできない。

 まあ、これに回答できるようなら、家宅捜索なんざしないわな……。というか、いい加減ネット関係の捜査で下手打ったらネットで拡散するんだという事実は学習した方が良いんじゃないかなぁ。事情聴取と違って隠蔽が不可能なんだからさ……。

13942925 journal
日記

TarZの日記: (やべえ、誤字った!) 4

日記 by TarZ

せっかくunicode 7.0まで取り入れたコメント書いたのにー!

13941283 journal
アメリカ合衆国

yasuokaの日記: タイプライターの名づけ親は誰なのか

日記 by yasuoka

ネットサーフィンしていたところ、講談社ブルーバックスのサイトで「6月23日 世界初のタイプライター(1868年)」(サイエンス365days、2019年6月23日)という記事を見つけた。

この日、アメリカの新聞記者で、発明家のクリストファー・レイサム・ショールズ(Christopher Latham Sholes、1819-1890)が取得した、世界初の実用的なタイプライターの特許が発効されました。

『タイプライターに魅せられた男たち』にも書いたが、クリストファー・レイサム・ショールズ/カルロス・グリデン/サミュエル・ウィラード・ソレーのアメリカ特許No.79265(1868年5月1日署名、1868年6月23日成立)は、さすがに「実用的なタイプライター」にはほど遠い。特許申請書を見ればわかるとおり、キーが21個しかない。しかも実際に製作されたモデルでは、キーを11個に減らして、ようやく特許を成立させたのである(『オフィス機器としてのQWERTYキーボード』写1参照)。アルファベット26字・数字8字(1と0はIとOを流用)・記号4字(ピリオド、コンマ、ハイフン、疑問符)を搭載した38キーの「実用的なタイプライター」は、私(安岡孝一)の知る限り、1870年4月まで遅れることになる。

なお、タイプライターという名前も、ショールズが試作機に命名したものです。

私の調べた限り「The American Type Writer」という名称は、ジェームズ・デンスモアの発案によると考えられる(cf. E. Payson Porter: "Porter's Telegraph College", Saint Joseph Herald, Vol.3, No.29 (1868年11月21日), p.3)。ただし、デンスモアもいきなりこの名称を思いついたわけではなく、ジョン・プラットの「Type Writing Machine」(Scientific American, Vol.17, No.1 (1867年7月6日), p.3)あたりがヒントとなっている可能性が高い。なお、ショールズ自身は、E.レミントン&サンズ社の初期モデルに「Sholes & Glidden Type-Writer」と名づけており(cf. "Ilion", Milwaukee Daily Sentinel, Vol.30, No.142 (1873年6月14日), p.2)、その意味では「試作機に命名」とムリヤリ言えなくもないが、それは上記の特許成立から5年後の話である。

まあ、グリデンもソレーもデンスモアも無視して、ショールズだけに注目したい気持ちはわからなくもないが、少なくともグリデンは、それを許さないと思う(cf. Carlos Glidden: "The New Type Writer", Scientific American, Vol.27, No.9 (1872年8月31日), p.132)。講談社ブルーバックスって、もう2000冊以上でてるはずなんだけど、これまでタイプライターをマトモに扱ったことがないのかしら。

13940927 journal
日記

mkrの日記: 君と、波にのれたらを見た 2

日記 by mkr

これからデートでいちゃつきたい人には最適。漫画、「トニカクカワイイ」に通じるものがある。
アニメーションの技術が高く、見ているだけでも気持ちいい。

前作、「夜明け告げるルーのうた」からさらに広い観客が楽しめる作り。基本的には誰でも楽しめる。

内容はいちゃつきだけではなく消防士お仕事映画だったり千葉ご当地映画だったりする。

13940582 journal
アメリカ合衆国

yasuokaの日記: Universal Dependenciesの拡張による「They shut the station down」の直接構成鎖解析

日記 by yasuoka

私(安岡孝一)の2月26日の日記で議論した「They shut the station down」だが、どうやらcompound:prt(あるいは全てのcompound)を特別扱いすることで、構成鎖不可分性を自動抽出できそうな気配になってきた。具体的には、以下のようなcatena_inseparability付きUniversal Dependenciesが、抽出できればいいということになる。

# text = They shut the station down
# catena_inseparability = 2<1<4<5<3
1    They    they    PRON    PRP    Case=Nom|Number=Plur|Person=3|PronType=Prs    2    nsubj    _    _
2    shut    shut    VERB    VBD    Mood=Ind|Tense=Past|VerbForm=Fin    0    root    _    _
3    the    the    DET    DT    Definite=Def|PronType=Art    4    det    _    _
4    station    station    NOUN    NN    Number=Sing    2    obj    _    _
5    down    down    ADP    RP    _    2    compound:prt    _    _

「UDPipe Visualizer with Immediate Catena Tree」で可視化してみると、こんな感じ。「shut down」と「the station」の間で、構成鎖解析木の枝が交差してしまうが、それは仕方ないだろう。UDPipeのenglish-gum-ud-2.4-190531モデルを使えば、現状でも何とか自動抽出できそうな気配だが、他のモデルや例文も、もう少し調べてみる必要がありそうだ。さて、どうなるかな。

13940397 journal
日記

mkrの日記: ダークフェニックス見た

日記 by mkr

XーMENシリーズは好きな方だが、ファーストジェネレーションシリーズは苦手。フューチャー&パストは良かったし最後とか言ってるしで見に行く。

「『X-MEN:ダーク・フェニックス』は1億〜1億2000万ドルの赤字になる可能性がある」
https://jp.ign.com/m/x-men-dark-phoenix/36180/news/x-men112000
それも納得の出来だが次回作がなくなる可能性は困る。

「『X-MEN:ダーク・フェニックス』の完成度はともかく、手の演技は注目に値する」
https://wired.jp/2019/06/21/dark-phoenix-hand-gestures-review/
とにかく俳優の演技の良さに救われる。アクションも良かった。シナリオが戦犯。
フェニックスは過去作ファイナルディシジョンで出ていたが、あれの不満はサイクロップス君が活躍しない(ウルヴァリンのせい)ところだったので、そこは良い。
シナリオを無視すれば星2か3。

(ウルヴァリンがいない分)サイクロップスが謎ビーム(物理で殴れたり熱線だったりする)で活躍してくれた。ナイトクローラーも。

typodupeerror

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

読み込み中...