パスワードを忘れた? アカウント作成
13449578 journal
数学

yasuokaの日記: 漢字の総画数とErlang分布

日記 by yasuoka

思うところあって、Unihan DatabaseのkTotalStrokesの分布を調べてみることにした。

 0
 1 * 18
 2 * 79
 3 ** 165
 4 *** 423
 5 ***** 777
 6 ********** 1570
 7 ***************** 2690
 8 *********************** 3653
 9 ***************************** 4624
10 ********************************** 5468
11 *************************************** 6249
12 ******************************************* 6915
13 ****************************************** 6648
14 ***************************************** 6556
15 **************************************** 6310
16 ************************************ 5794
17 ****************************** 4729
18 ************************** 4074
19 ********************* 3325
20 ***************** 2681
21 ************** 2129
22 *********** 1672
23 ******** 1217
24 ****** 917
25 **** 599
26 *** 423
27 *** 326
28 ** 217
29 * 131
30 * 98
31 * 54
32 * 44
33 * 29
34 * 12
35 * 14
36 * 15
37 * 11
38 * 5
39 * 3
40 * 3
41 * 1
42 * 1
43 * 1
44 * 2
45
46 * 1
47
48 * 4
49
50
51
52 * 1
53 * 1
54
55
56
57
58
59
60
61
62
63
64 * 2
65

U+8303(范)の「kTotalStrokes 8 9」を除いたデータ数は80681字で、平均は14.054画。ざっと見た感じ、ガンマ分布っぽい気がするので、Thomas P. Minkaの最尤推定にかけてみたところ、形状パラメータ8.043509、スケールパラメータ1.747257に収束した。

Unihan DatabaseのkTotalStrokesが、漢字の総画数を代表しているかどうかには、もちろん議論の余地があるが、とりあえず、フェーズ8で平均14のErlang分布、ってことでいいのかしら?

この議論は、yasuoka (21275)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

最初のバージョンは常に打ち捨てられる。

読み込み中...