パスワードを忘れた? アカウント作成

あなたのタレコミがスラドを支えます。さぁ、タレこめ!

13791944 journal
人工知能

yasuokaの日記: 古典中国語Universal Dependenciesの構成素解析向け拡張(簡易版)

日記 by yasuoka

昨日の日記で示したUniversal Dependenciesの構成素解析向け拡張が、かなりヤヤコシイ結果になってしまったので、最小限の情報にまで削ぎ落とすことを考えてみた。端的には、multiword tokenを使わずに、MISCフィールド(第10フィールド)にConstituentという属性を追加するだけで、必要ギリギリの情報が表せそうだ。

13791387 journal
人工知能

yasuokaの日記: 古典中国語Universal Dependenciesにおける複合語と構成素解析

日記 by yasuoka

昨日の日記で例示した「參知政事」という官職名は、内部に「知政事」という官職名を含んでいる。「知政事」という官職名は、さらに内部に「政事」という一種の熟語を含んでいる。この様子を、昨日の拡張版Universal Dependenciesで表してみよう。

13790368 journal
人工知能

yasuokaの日記: 動賓構造を内部に持つ名詞句のための古典中国語Universal Dependenciesの拡張

日記 by yasuoka

「置參知政事以副普」という漢文(古典中国語)において、「參知政事」という官職名をUniversal Dependenciesでどう書くべきか、ここ数日ほど考えてみた。結論が出た、というわけではないのだが、現時点での私(安岡孝一)のアイデアを、忘れないうちに今日の日記に記しておく。

13784444 journal
人工知能

yasuokaの日記: BERTと東ロボは漢文に返り点を打つことができたのか

日記 by yasuoka

私(安岡孝一)の11月30日の日記の読者から、鳥谷健史の『Google最新技術「BERT」と「東ロボ」との比較から見えてくるAIの課題』(ハーバービジネスオンライン、2018年11月23日)という記事を読んでみてほしい、との連絡をいただいた。読んでみたのだが、牽強付会を絵に描いたような記事で、正直かなりカチンと来た。

「ロボットは東大に入れるか」(以下、東ロボ)は国立情報科学研究所が2011年から開始したプロジェクトです。統計とビッグデータによるAI技術の可能性と限界を正確に認識することを一つの目的としています。2013年~2016年までセンター模試、記述式模試を受験し結果を公開していました。

13780639 journal
人工知能

yasuokaの日記: 東ロボは漢文に返り点を打つことができたのか

日記 by yasuoka

私(安岡孝一)の11月12日の日記の読者から、「ロボットは東大に入れるか」(東京大学出版会、2018年9月)を読んでみてほしい、との御連絡をいただいた。読んでみたところ、67ページに

大学入試の「国語」は,現代文,古文,漢文の3つに分けられる.このうち,古文と漢文は,受験生にとってほとんど外国語のようなものであり,外国語と同じように単語や文法を覚え,現代日本語に翻訳する能力を身につけることが,主要な対策となる.実際,古文や漢文の問題は,単語や文法の知識を問う問題や現代文に翻訳する問題,および,それに基づく内容理解の問題が出題されるため,このような対策は有効であり,コンピュータで解く場合でも,同様のアプローチをとることになる.

13775435 journal
政府

yasuokaの日記: 法律における「碍」の1字 5

日記 by yasuoka

『人名用漢字の新字旧字』「碍」と「礙」の読者から、昨日の『朝日新聞』文化欄に掲載された上田真由美の「障碍表記「事情に応じ可」常用漢字入りは先送り」(大阪版(第49197号)だとp.29)という記事を、読んでみてほしいとの御連絡をいただいた。

2020年東京パラリンピックを見据え、法律で障害を「障碍」と表記できるよう「碍」の1字を常用漢字表に加えるよう求めた衆参両院の委員会決議に対し、文化審議会国語分科会は22日、追加の是非の結論を先送りし、「自治体や民間組織が『碍』を使うことを妨げるものではない」とする考え方を示した。

13772670 comment

yasuokaのコメント: Re:next sentence prediction (スコア 1) 2

うーむ、やはりダメですか。しかも、BERTのtokenizerは、漢字に関しては、かなり筋が悪い実装に見えるのです。文という単位もダメ、単語という単位もダメだとすると、BERTで漢文(Classical Chinese)を扱うのは、スッパリあきらめるべきかな…。

13771836 journal
中国

yasuokaの日記: GoogleのBERTの元データは本当にWikipediaなのか 2

日記 by yasuoka

11月12日の日記に書いた「しにはとんとんワークケートを」が、どうにもこうにも気になったので、少し探してみた。端的にはBERTのChineseモデルのvocab.txtにある、以下の7行だ。

せからこ
してくたさい♪この
しにはとんとんワークケートを
するとあなたにもっとマッチした
ならワークケートへ
もみつかっちゃうかも
ワークケートの

13767903 journal
Google

yasuokaの日記: Re: GoogleのBERTは漢文に返り点を打つことができるのか 2

日記 by yasuoka

私(安岡孝一)の一昨日昨日の日記の読者から、このツイートをお教えいただいた。ちょうど手元に工藤拓『形態素解析の理論と実装』(近代科学社、2018年9月)が届いて、ざっと読み始めたところだったのだけど、そっちはとりあえずおいといて、私個人としては、BERTの事前

13767059 journal
日記

yasuokaの日記: 漢文に返り点を打つタスク

日記 by yasuoka

昨日の日記で「漢文に返り点を打つタスク」と書いたところ、返り点にも流派のようなものがあるのではないか、という趣旨の御意見をいただいた。まあ、それもあって、今回、私(安岡孝一)の『漢文の依存文法解析と返り点の関係について』(日本漢字学会第一回研究大会(2018年12月1日)発表予定)では、『漢文大系』(冨山房、1909~1916年)の「孟子定本」とだけ対照している。卷一のアタマを見てみよう。

13766537 journal
Google

yasuokaの日記: GoogleのBERTは漢文に返り点を打つことができるのか

日記 by yasuoka

『漢文の依存文法解析と返り点の関係について』(日本漢字学会第一回研究大会(2018年12月1日)発表予定)の発表準備をしていたところ、返り点程度ならGoogleのBERTを使えば打てるのではないか、という趣旨の御意見をいただいた。まあ、打てるかもしれないな、と思って、ここ5日間ほど

13750689 journal
地球

yasuokaの日記: 古典中国語Universal Dependenciesにおける「S不X而Y」という構文 1

日記 by yasuoka

Universal Dependenciesで「孟子定本」を記述すべく頑張っていたところ、ふっと「S不X而Y」という形の構文が気になった。この構文は、「不」がXとYの両方を否定しているのか、あるいはXだけを否定しているかが、曖昧である。実際、「孔子不得中道而與之」では「得中道而與之」を否定していると考えられるが、「叟不遠千里而來」では「遠千里」しか否定していないようだ。

13743864 journal
日記

yasuokaの日記: Z80におけるPaethの回転行列 1

日記 by yasuoka

一昨日昨日の日記を読み返しながら、イキオイ余ってPaethの回転行列を、Z80で汎用的に実装してしまった。IXレジスタにx座標の256倍を、IYレジスタにy座標の256倍を、HLレジスタに-tan(θ/2)の16384倍を、DEレジスタにsinθの16384倍を、それぞれ符号付整数で入れて呼び出すと、θだけ回転(ただし-2π/3≦θ≦2π/3)した結果がIX,IYレジスタに返ってくる。

typodupeerror

一つのことを行い、またそれをうまくやるプログラムを書け -- Malcolm Douglas McIlroy

読み込み中...