ソースコードで最もよく使われる単語が明らかに
タレコミ by Anonymous Coward
あるAnonymous Coward 曰く、
情報元へのリンク
英文中に最も多く現れるアルファベットが「E」だというのはよく知られていることですが、英文中に最も多く現れる単語は「the」だそうです。では、プログラミング言語ではどうなのか? 気になったので調べてみたというリポートがこちら。GitHub のソースコードを対象に解析しています。
http://knt5lab.appspot.com/papers/20120725_githubwords/paper.pdf
「アルファベットと数字」で単語が作られるとき、プログラミング言語に最も多く登場する単語はなんと「0」で、次に「if」が続くという結果となっています。
「if」や、その他の良く使われそうな予約語が1位というのなら解りやすいのですが、「0」が圧倒的多数で1位の座を獲得したことに素直に驚きました。マジックナンバーは使用厳禁と言いながらも、考えてみれば初期化等に使う 0 だけは、ひとつの意味をもった定数であるかのごとく無意識のうちにそこら中で使っていることに気付いた次第です。
その他にもプログラミング言語が自然言語の特性を持つかジップの法則を使って検証しており、どの言語がより自然言語に近いか検証していて面白いですよ。
親元のサイトはこちらです。
http://knt5lab.appspot.com/
情報元へのリンク
ソースコードで最もよく使われる単語が明らかに More ログイン