yasuokaの日記: 漢字の総画数とErlang分布
思うところあって、Unihan DatabaseのkTotalStrokesの分布を調べてみることにした。
0
1 * 18
2 * 79
3 ** 165
4 *** 423
5 ***** 777
6 ********** 1570
7 ***************** 2690
8 *********************** 3653
9 ***************************** 4624
10 ********************************** 5468
11 *************************************** 6249
12 ******************************************* 6915
13 ****************************************** 6648
14 ***************************************** 6556
15 **************************************** 6310
16 ************************************ 5794
17 ****************************** 4729
18 ************************** 4074
19 ********************* 3325
20 ***************** 2681
21 ************** 2129
22 *********** 1672
23 ******** 1217
24 ****** 917
25 **** 599
26 *** 423
27 *** 326
28 ** 217
29 * 131
30 * 98
31 * 54
32 * 44
33 * 29
34 * 12
35 * 14
36 * 15
37 * 11
38 * 5
39 * 3
40 * 3
41 * 1
42 * 1
43 * 1
44 * 2
45
46 * 1
47
48 * 4
49
50
51
52 * 1
53 * 1
54
55
56
57
58
59
60
61
62
63
64 * 2
65
U+8303(范)の「kTotalStrokes 8 9」を除いたデータ数は80681字で、平均は14.054画。ざっと見た感じ、ガンマ分布っぽい気がするので、Thomas P. Minkaの最尤推定にかけてみたところ、形状パラメータ8.043509、スケールパラメータ1.747257に収束した。
Unihan DatabaseのkTotalStrokesが、漢字の総画数を代表しているかどうかには、もちろん議論の余地があるが、とりあえず、フェーズ8で平均14のErlang分布、ってことでいいのかしら?
漢字の総画数とErlang分布 More ログイン