パスワードを忘れた? アカウント作成
13291006 journal
教育

yasuokaの日記: 書写言語研究におけるサンプルデータの重要性と妥当性

日記 by yasuoka

私(安岡孝一)の2016年2月26日の日記の読者から、近江龍一・西原陽子・山西良典の『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。

本研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた.

そんな偏ったサンプルデータ10本で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書かれていない。pixivは本来「イラストコミュニケーションサービス」のサイトであり、イラストならまだしも、R-18小説を抽出しなければならない理由は無い。もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう。

というか、西原陽子と山西良典は、以前、キラキラネームの研究に際しても、かなりおかしなサンプルデータを使っており、私自身こっぴどく指摘した(これとかこれとかこれとかこれ)はずだ。インターネットでお手軽にサンプルデータを拾ってきたい気持ちは、まあ、理解できなくもないが、それでも研究を始める前に、そのサンプルデータの妥当性を検討しておくべきだ。サンプルデータをpixivのR-18小説に限定する妥当性があるのなら、その妥当性をぜひ明らかにしてほしい。

13290154 journal
日本

yasuokaの日記: 戸籍統一文字081270はUnicode 10.0のどこに行ったのか

日記 by yasuoka

私(安岡孝一)の昨日の日記の読者から、戸籍統一文字081270はUnicode 10.0に収録されたのか、という趣旨の御質問をいただいた。収録されたはされたのだが、ちょっとヤヤコシイことになっている。JTC1/SC2/WG2/IRGの原案では、戸籍統一文字081270はU+2D4E9に収録される予定だったが、イギリスの抵抗にあって、結局、戸籍統一文字080970と統合した上で、U+2D4E9に収録することになった(cf. JTC1/SC2/WG2/IRG N2149)。その結果、Unicode 10.0(ドラフト)のCJK Extension Fでは、戸籍統一文字080970に対応する字体がJMJ-057329として、戸籍統一文字081270に対応する字体がUSAT-04051として、U+2D4E9に仲良く並べられている。ただ、これ、字体の左下が、それぞれ「夕」と「歹」で、はっきり異なっていて、さて、どうするんだろ、という感じである。これもやっぱり、IVS提案で対応するしかないのかなぁ…。

13289311 journal
日本

yasuokaの日記: 戸籍統一文字046350はUnicode 10.0のどこに行ったのか

日記 by yasuoka

私(安岡孝一)の一昨日の日記の読者から、戸籍統一文字046350はUnicode 10.0に収録されたのか、という趣旨の御質問をいただいた。収録されたのはされたのだが、ちょっとヤヤコシイことになっている。JTC1/SC2/WG2/IRGの原案では、戸籍統一文字046350をU+865F「號」に統合しようとしていたのだが、日本の抵抗にあって、結局、戸籍統一文字046110と統合した上で、U+2D239に収録することになった(cf. JTC1/SC2/WG2/IRG N2088)。ところが、Unicode 10.0(ドラフト)のCJK Extension Fでは、U+2D239にJMJ-057174だけが示されていて、JMJ-057183は示されていない。この結果、戸籍統一文字046110がU+2D239に収録されているのは確かだが、戸籍統一文字046350がどこに行ったのかは、一般の人たちにはわからない状態になっている。まあ、IVS提案で対応するしかないのかなぁ…。

13287244 journal
日本

yasuokaの日記: 戸籍統一文字152850「はかた」がU+2D92Aへ 1

日記 by yasuoka

思うところあって、『角川大字源』(1992年2月)の「国字一覧」(pp.2108-2116)のうち、[B]総画配列に掲載されている125字について、戸籍統一文字番号とMJ文字図形名とUCS(追加予定のExtension Fを含む)をざっと調べてみた。この日記の少なからぬ読者の役に立つかと思い、ここに公開する。

  • しめ 001340 MJ000002 U+3006
  • えだなし 000100 MJ056819 U+2C09B
  • えだおろし 000200 MJ056820 U+2CEB1
  • グレーン 002070 MJ056864 U+2CF17
  • かいち 026610 MJ057059 U+2B9A4
  • ダラー 001350 MJ056851 U+2CF01
  • オンス 001360 MJ056852 U+2CF04
  • しょうもん 001510 MJ056856 U+2CF06
  • ぜに 001520 MJ056856 U+2C329
  • とと 031350 MJ031721 U+2097C
  • きりよ 055700 MJ017123 U+738D
  • なた 089440 MJ010397 U+5C76
  • えんがく 112050 MJ035709 U+22451
  • かいち 026840 MJ057062 U+2B9A5
  • かみしも 000670 MJ031774 U+209D7
  • くれる 552560 MJ000138 U+34B2
  • たち 022420 MJ057042 U+2B972
  • はかた 152850 MJ057632 U+2D92A
  • ほき 089700 MJ034487 U+21D45
  • ぼさつ 000680 MJ046311 U+2CEC0
  • みち 080440 MJ057327 U+2BCB5
  • かなり 027030 MJ057063 U+2A7D7
  • きね 163180 MJ057702 U+2AC71
  • くさか 154810 MJ057651 U+2C027
  • ぶっちょう 110160 MJ057462 U+2BE28
  • ぼだい 000780 MJ056833 U+2CECB
  • もく 163090 MJ013638 U+6762
  • いと・とおさん 070930 MJ057295 U+2D475
  • えと 146860 MJ057584 U+2ABC6
  • さいぶつ 007450 MJ056917 U+4FA1
  • ざんぶと 164200 MJ057709 U+2AC76
  • とじ 023180 MJ057047 U+2D0D9
  • むく 279360 MJ058220 U+2B027
  • かたな 027460 MJ057066 U+2B9AB
  • くめ 300270 MJ019812 U+7C82
  • しゃか 027470 MJ057067 U+2AA0E
  • しらき 165390 MJ057713 U+23429
  • でんき 002430 MJ056871 U+2C1D0
  • どんぶと 268970 MJ058195 U+2C47D
  • なくなく 197000 MJ057945 U+2C1DC
  • やき 267590 MJ058194 U+2AFC8
  • いそぎ 032000 MJ057098 U+2A716
  • いみき 084480 MJ057347 U+2D532
  • うつほ 081730 MJ057333 U+2BCCD
  • おやま 072610 MJ057298 U+2D47E
  • かだい 346940 MJ021888 U+834E
  • こえのみ 374320 MJ058605 U+2C7F7
  • こんごう 455760 MJ026602 U+91D7
  • のたれ 132370 MJ057549 U+2BF0B
  • ぼんのう 315760 MJ058340 U+2E282
  • めでたい 260320 MJ058158 U+2C44E
  • あらし 473160 MJ058969 U+2E94C
  • あられ 478800 MJ058990 U+2CBF8
  • かたい 098910 MJ057410 U+20523
  • けさ 245110 MJ017699 U+7569
  • こがね 079560 MJ057321 U+2BCA7
  • しゅうねく 032050 MJ057099 U+2B988
  • じん 098920 MJ057411 U+2B519
  • ほろ 389670 MJ023967 U+88B0
  • あしだ 060660 MJ057232 U+2D3C0
  • う 161750 MJ057687 U+2C083
  • かっぱ 320480 MJ020687 U+7FD5
  • くたびれる 352140 MJ022235 U+8419
  • さやけし 157990 MJ037724 U+231F5
  • でんしん 401950 MJ058739 U+2B337
  • でんしゃ 433110 MJ058826 U+2C9F3
  • の 245390 MJ058098 U+2C3C8
  • ぼん 028070 MJ057072 U+2D139
  • より 037100 MJ057142 U+2D1B4
  • わかい 352850 MJ058489 U+2BCA9
  • あま 064920 MJ057249 U+5870
  • いち 004080 MJ056899 U+2CF56
  • せ 036000 MJ057131 U+2BA2D
  • むつまじい 161900 MJ057692 U+2AC64
  • やきは 215950 MJ016469 U+7144
  • やまがつ 098940 MJ057412 U+2D609
  • あられ 479450 MJ058993 U+2B563
  • うちかう 032130 MJ057101 U+2A7F7
  • おどる 076250 MJ057312 U+2BC67
  • かたみ 113310 MJ057484 U+2B31F
  • さき 358450 MJ058517 U+2B240
  • なかご 458020 MJ026805 U+9286
  • ふし 079900 MJ057324 U+2BCAE
  • ヘクタール 003430 MJ056884 U+2B877
  • ほくそ 173500 MJ014461 U+6A2E
  • あたま 126800 MJ057521 U+2BBF8
  • えな 392200 MJ024076 U+891C
  • きれ 107450 MJ057450 U+2D67B
  • てらつつき 175290 MJ057808 U+2ACD3
  • ならい 496170 MJ053729 U+295CF
  • はんにゃ 340390 MJ058435 U+2B1DC
  • あさる 500490 MJ053958 U+296F0
  • うけ 193170 MJ057938 U+2DBF4
  • おそれ 063430 MJ057243 U+2BBAD
  • とりめ 264590 MJ058182 U+2AFBB
  • ほとけ 014410 MJ056954 U+203F9
  • ゆんぜい 111620 MJ057471 U+2BE3E
  • わさび 096590 MJ057392 U+2BD99
  • かごや 325520 MJ058368 U+2CE3D
  • かなくそ 461790 MJ058927 U+2E8A4
  • さしよせる 435210 MJ004966 U+4868
  • センチアール 003440 MJ056885 U+2CABF
  • そぞろく 518790 MJ059084 U+2B64B
  • はた 069100 MJ057289 U+2BC01
  • ひかえたり 325530 MJ058369 U+2C18D
  • まね 014740 MJ056957 U+2B8F5
  • ききがき 470400 MJ058963 U+2CB91
  • しぐれ 480840 MJ058996 U+2CC08
  • まろ 542050 MJ029863 U+9EBF
  • もる 258300 MJ058153 U+2AF97
  • あら 367960 MJ058558 U+2A963
  • くらぼね 242480 MJ058072 U+2DEA7
  • くもる 544730 MJ059267 U+2B71B
  • にちょうのゆみ 111920 MJ057473 U+2AAC4
  • びとう 246620 MJ058111 U+2AF65
  • したるし 454790 MJ058891 U+2E849
  • すごもり 180950 MJ057870 U+2DB3A
  • ブリザード 526690 MJ059176 U+2B679
  • まと 246700 MJ058112 U+2DEFA
  • うめ 181430 MJ057874 U+2C157
  • えい 221110 MJ058013 U+2AE8A
  • かぬち 466380 MJ058954 U+2CB22
  • けいず 161000 MJ057683 U+2DA17
  • つる 482320 MJ027893 U+974E
  • くくわけなく 287810 MJ058255 U+2B6D9

私(安岡孝一)個人としては、戸籍統一文字152850「はかた」が、U+2D92Aに追加予定なのが非常にうれしい。2010年8月27日の日記にも書いたが、7年前の私には、この「漢字」がUCSに追加されるとは、とても思えなかったのだ。奔走して下さった関係諸氏に、感謝する次第である。

13283629 journal
日本

yasuokaの日記: Re: 戸籍電算化に着手していない地方自治体 1

日記 by yasuoka

『戸籍』最新号(No.939、2017年4月)を読んでいたところ、「戸籍事務のコンピュータ化市区町村一覧表(平成29年3月31日現在)」(pp.20-25)という記事が目にとまった。

平成29年3月31日現在,コンピュータ化庁は,全国市区町村数1896のうち1892市区町村である。なお,コンピュータ化していない市町村は,東京都御蔵島村,新潟県加茂市,京都府相楽郡笠置町,北海道夕張市である。

戸籍電算化終了まで、あと、4市町村か。ふーむ…。

13280017 journal
日記

yasuokaの日記: KS X 1001の「衰」はU+8870なのかU+2E569になるのか

日記 by yasuoka

私(安岡孝一)の昨日の日記に対して、KS X 1001の65-81「衰」はU+2E569になるのか、というご質問をいただいた。KS X 1001:2004のオンライン版PDFでは、65-81(E1F1)は<U+8870 U+E0103>、すなわちU+2E569に追加予定の字体である。私の手元にあるKS X 1001の旧版(1998年版や2002年版)でも同様だ。

ただ、KS X 1001の65-81は、ISO/IEC 10646のU+8870と対応している。U+8870のK欄の字形が、なぜ<U+8870 U+E0103>でないのか、なぜ韓国が当時この字形を提出してきたのか、今となっては謎だ。ただ、U+2E569が追加されたからと言って、KS X 1001の65-81はU+8870に残すべきだろう。でも、この立場を、韓国側は、ちゃんと理解できるんだろうか?

13279690 journal
日記

yasuokaの日記: 韓国の漢文教育用基礎漢字の「衰」はU+8870なのかU+2E569になるのか

日記 by yasuoka

『韓国の人名用漢字と漢字コード』の読者から、戸籍統一文字389040がExtension FでU+2E569に追加された場合、<U+8870 U+E0104>はどうなるのか、という趣旨のご質問をいただいた。韓国の漢文教育用基礎漢字の「衰」は、1972年版では<U+8870 U+E0103>の字体だったが、2000年版以後は<U+8870 U+E0104>に変更されている。しかも、<U+8870 U+E0103>の字体は、Extension FのU+2E569に追加が予定されているので、その時<U+8870 U+E0104>はどうなるのか、というご質問だ。

実は、私(安岡孝一)自身、正直わからない。今のところ、文字情報基盤は<U+8870 U+E0103>を使用しておらず、戸籍統一文字389040はU+2E569を使うことになると思う。その一方、<U+8870 U+E0104>は、このまま放置されてU+2E569に移ったりしない、というのが私のヨミだ。ただ、この立場を、韓国側が踏襲するとは思えないので、一波乱あるのかもしれない。さあ、どうなるかなぁ…。

13277128 journal
中国

yasuokaの日記: ニホニウムの中文名称が正式に決定 32

日記 by yasuoka

昨日(2017年5月9日)、中国科学院・国家語言文字工作委員会・全国科学技術名詞審定委員会は、合同で会見をおこない、4つの新元素(Nh・Mc・Ts・Og)の中文名称を、正式に発布した(プレスリリース)。各元素の中文名称を、IDS (Ideographic Description Sequence)で表したものは以下の通り。

  • 113 Nh 「⿰钅尔」(nǐ)
  • 115 Mc 「⿰钅莫」(mò)
  • 117 Ts 「⿰石田」(tián)
  • 118 Og 「⿹气奥」(ào)

これら4つの漢字のうち「镆」以外の3字は、現時点ではISO/IEC 10646 (Unicode)に収録されておらず、緊急に追加提案がおこなわれるとのこと。

13275660 journal
日本

yasuokaの日記: みずほ中央法律事務所の考える人名用漢字の歴史

日記 by yasuoka

ネットサーフィンしていたところ、みずほ中央法律事務所のホームページで「名の常用平易性(使用可能漢字)の基本」(2017年5月4日)というページを見つけた。つい5日ほど前に書かれたページのはずなのに、25年前で歴史が止まってしまっているかのようなページだった。

<名として使える漢字の増加の歴史>

あ 昭和23年戸籍法施行
『ア・イ』の文字を名に使用できた
ア 当用漢字に掲げる漢字;1850字
イ 片仮名・平仮名 変体仮名を除く

い 昭和26年
人名用漢字別表に掲げる漢字について92字が追加された

う 昭和51年
人名用漢字追加表に掲げる漢字について28字が追加された

え 昭和56年
当用漢字表に代わって常用漢字表が制定された
名に使える漢字は『ア・イ』となった
ア 常用漢字表に掲げる漢字;1945字
イ 人名用漢字別表に掲げる漢字;112字

お 平成2年4月1日
人名用漢字別表に掲げる漢字について118字が追加された→合計230字となった

いや、そこで終わっちゃうと、「琉」「曽」「穹」「巫」も、人名用漢字に追加されなくなっちゃうんだけど。それに、昭和56年10月時点の人名用漢字は166字なので、平成2年の118字追加で、「合計230字」じゃなく284字になったはずだ。

私(安岡孝一)自身も『日韓二重戸籍の子の名に使える人名用漢字』(戸籍時報, No.744 (2016年9月), pp.13-25)に書いたとおり、日本の人名用漢字は平成2年(1990年)以後、1997年12月3日、2004年2月23日、2004年6月7日、2004年7月12日、2004年9月27日、2009年4月30日、2010年11月30日、2015年1月7日に改正されている。現在は、常用漢字2136字と人名用漢字862字、合わせて2998字が子の名づけに使える。「合計230字」なんていうアヤシイ知識や、昭和の判例で議論されたんじゃ、正直、依頼者はたまったものじゃないと思う。法律事務所を名乗るのなら、もうちょっと、ちゃんと勉強してほしいなぁ。

13274505 journal
中国

yasuokaの日記: ニホニウムは中国の通用規範漢字になれるのか 2

日記 by yasuoka

『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』の読者から、中国の『通用規範漢字表』にニホニウム「⿰钅尔」は追加されるのか、という趣旨のご質問をいただいた。ちょっと現状を確認してみよう。

元素番号104以降について見てみると、Rf「𬬻」、Db「𬭊」、Sg「𬭳」、Bh「𬭛」、Hs「𬭶」、Mt「鿏」、Ds「𫟼」、Rg「𬬭」は、いずれも『通用規範漢字表』の三級字に収録されている。しかし、Cn「鿔」は、『通用規範漢字表』に収録されていない。『通用規範漢字表』は2013年6月の公布で、コペルニシウムの認定(2010年2月)や漢字名の決定(2012年1月)より後なのに、Cn「鿔」は『通用規範漢字表』に間に合わなかったわけである。そう考えると、Nh「⿰钅尔」が『通用規範漢字表』に入るのは、まだまだ先の話になるのだろう、と私(安岡孝一)個人には思える。ただ、Fl「𫓧」とMc「镆」は、すでに三級字に収録されているので、Lv「𫟷」あたりと同時収録かなぁ…。

typodupeerror

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

読み込み中...