route127の日記: 漏れ諸橋 2
こないだの漢字を図書館の諸橋大漢和で調べようと予め検字番号を調べていてデータベース間で多少の相違があることに気付いた。
カバーしている範囲はUnicode::Unihanが一番広いのでそれを基準に考えると、
①Unihanがカバーしていない範囲
②Unihanがマジックナンバを割り当てている
③Unihanと他データベースで齟齬がある
の3つに分類できそう。
環境
perl v5.30
Unicode::Unihan 0.043
Data::Kanji::Kanjidic 0.17
①については、
CJK統合漢字拡張A(U+3400-4DBF)
CJK統合漢字拡張B(U+20000-)
の範囲はなぜかUnihanのmorohashiが検字番号を返さないがUnihan本体の問題なのか、Perlモジュール側の問題なのかは不明。
この範囲についてはCHISEのIDS-DaikanwaとIDS-UCSを突き合せればコードポイントと諸橋大漢和の検字番号の対応が取れはする。
②はUnihanがマジックナンバ、00000や99999という番号を返してくる場合があることである。
00000を返すものは管見の限りCJK補助漢字のうちのカナダ漢字に限られるようだが、そのうち2字については15巻(補巻)に収録されてるらしい。(未確認)
FA0E 﨎 00000
FA0F 﨏 00000 MH-0085
FA11 﨑 00000 MH-0149
FA13 﨓 00000
FA14 﨔 00000
FA1F 﨟 00000
FA21 﨡 00000
FA23 﨣 00000
FA24 﨤 00000
FA27 﨧 00000
FA28 﨨 00000
FA29 﨩 00000
99999を返すものは簡体字などの他には
(a)表外字(Kanjidicは0を返す)
(b)諸橋大漢和の修訂作業によるもの?(Kanjidicのみ有効そうな検字番号を返す)
(c)諸橋大漢和の修訂作業によるもの?(Kanjidicの返す値の末尾がX)
の3通りに分けられそう。
櫈(U+6AC8)についてUnihanのみが15779が検字番号を返すが、これは初版縮刷版にのみ記載され修訂版で削除されたものであるようで、これはUnihanがKanjidicよりも古い版の諸橋大漢和を参照していることの傍証になりそう。
(a)表外字(Kanjidicは0を返す)
78JISから83JISへの移行時の字形変更回りの話なんだろうか。
6867 桧 0 99999
69D9 槙 0 99999
877F 蝿 0 99999
(b)諸橋大漢和の修訂作業によるもの?(Kanjidicのみ有効そうな検字番号を返す)
7464 瑤 21149 99999
8749 蝉 33616 99999
9A28 騨 45002 99999
この辺も瑶とか単の字形の問題なのか?
(c)諸橋大漢和の修訂作業によるもの?(Kanjidicの返す値の末尾がX)
沢山あるがやはり字体の違いなのか。
書き忘れてたが左のカラムからコードポイント、文字、Kanjidic検字番号、Unihan検字番号、IDS-morohashi検字番号である。
565B 噛 4516X 99999 MH-0071
5699 嚙 04516
56A2 嚢 4633X 99999 MH-0561
56CA 囊 04633
8EAF 躯 38137X 99999
8EC0 軀 38137
残りの字にもなんかその辺の謂れはありそう。
586B 填 5355X 99999
5C76 屶 7886X 99999
5F5C 彜 9948X 99999
6238 戸 11696X 99999
63B4 掴 12572X 99999
63BB 掻 12477X 99999
6741 杁 14427X 99999
698A 榊 15352X 99999
6D9C 涜 18591X 99999
6E8C 溌 18225X 99999
6F97 澗 18253X 99999
7114 焔 19141X 99999
75E9 痩 22415X 99999
7977 祷 24852X 99999
7BAA 箪 26509X 99999
7C14 簔 26387X 99999
7E4B 繋 27940X 99999
7E4D 繍 27913X 99999
834A 荊 30940X 99999
83B1 莱 31262X 99999
848B 蒋 31820X 99999
874B 蝋 33786X 99999
9197 醗 40041X 99999
91A4 醤 40011X 99999
91FC 釼 40186X 99999
9771 靱 42715X 99999
982C 頬 43496X 99999
983D 頽 43517X 99999
985B 顛 43628X 99999
9D0E 鴎 47268X 99999
9E78 鹸 47576X 99999
9EB9 麹 47818X 99999
9EBA 麺 47827X 99999
③Unihanと他データベースで齟齬がある
検字番号が入れ替わっている。
58F7 壷 5657 5662
58FA 壺 5662 5657
検字番号が1~100くらいずれてる。
5E3D 帽 8972 8971
626E 扮 11830 11829
83BD 莽 31130 31132
6BBA 殺 16629 16638
6BAA 殪 16578 16629
701E 瀞 18659 18520
736A 獪 20729 20929
7570 異 21854 21866
80BA 肺 29422P 29328
80FC 胼 29453 29586
8AB0 誰 35586 35686
8C50 豐 36304 36296
8C55 豕 36334 36337
Unihanが参照している版 (スコア:0)
https://www.unicode.org/reports/tr38/#kMorohashi [unicode.org]
によると、
> The edition used is the revised edition, published in Tokyo by Taishūkan Shoten, 1986.
とのこと。1986年だから修訂版(修訂第1版)っぽい。
ちなみにこちらの記事によると、
https://moji.or.jp/2022/06/07/%E3%83%A6%E3%83%8B%E3%82%B3%E3%83%BC%E3%... [moji.or.jp]
文字情報技術促進協議会からの情報をもとにUnihanのkMorohashiの情報を入れ替える予定があるようだ
Re:Unihanが参照している版 (スコア:1)
>修訂版(修訂第1版)っぽい。
②で触れた通り修訂版で削除されたらしい字である「櫈」(U+6AC8、M15779)がUnihanに記載されてて出典をそのまま信じていいのか疑問が残る。
Unihanにメンテが入るとして、最新版に準拠という風になるのか、諸橋の版による差異まで収録するのかも気になる。
戦前版含めたら5種類くらいあるみたいで、それをまともに反映しようとすると作業が大変そうではある。
あと国立情報学研究所でも2000年頃に目録サービスの移行作業で大漢和辞典の検字番号とUCSの対応表を作ってたらしい。
https://www.nii.ac.jp/CAT-ILL/INFO/newcat/cjkdic/cjkdic.html [nii.ac.jp]