アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
最初のバージョンは常に打ち捨てられる。
文章の長さ (スコア:0)
文章の長さを国際比較するには (スコア:1, 興味深い)
話ですが、エントリ数ではなく文字数で比較するとどうなるんでしょうか。
と、思ったんですが、文字数での比較がそもそも公平なのかどうか、分からないですね。
26文字しかないアルファベットと、何千もある漢字とでは、1文字あたりの情報量が
違うでしょうし。
全世界の言語に広く翻訳されている作品の長さで割って規格化する、なんてのは
どうでしょうか。
Re:文章の長さを国際比較するには (スコア:1)
> 26文字しかないアルファベットと、何千もある漢字とでは、1文字あたりの情報量が
> 違うでしょうし
手軽に考えるなら、シャノン情報量で数えればいいんじゃないですかね。
1文字あたりの情報量を「log2 出現確率」で表現します。
8回に一回は現れる文字なら情報量は3ビットですし
1000回に一回しか現れない文字なら情報量は10ビットになります。
文章中に現れる個々の文字のビット数を算出し
合計すれば文章全体での情報量が出ます。
もうちょっと真面目に考えるなら、
文字単位でなく単語単位で出現頻度を数えた方がいいでしょうねえ。
Re:文章の長さを国際比較するには (スコア:0)
> 26文字しかないアルファベットと、何千もある漢字とでは、1文字あたりの情報量が
> 違うでしょうし。
じゃあ画数で比較してみましょうか。
Re:文章の長さを国際比較するには (スコア:0)
・たいていの文字で、公式な画数や書き順は決まっていない。(日本くらいのもの?)
・同じ内容を簡体字と繁体字で表現すると、繁体字のほうが画数が多くなる
・アラビア文字のように、続けて書く文字もある。
という問題がありそう。
もしかして、圧縮すると冗長性を小さくして純粋な情報量に近い値を取り出せるかも?