taggaの日記: ぼけてる
日記 by
tagga
大きなコーパスがあるところはいいなあ、ってことで、 ここんとこGoogle Books を歴史コーパスとして遊んでいる。
さて、言語変化のモデルとして、正規分布っぽいのがいいのか、 ロジスティック分布っぽいのがいいのかっていう、 関心があまり持たれていない問題がある。 僕はロジスティック分布の方が理屈から言えば、いいと思う。 けど、実際にそれを確かめられる質のデータは、たぶん取れない。
Ngram Viewer で is come から has come への変化を試してみたら、 割ときれいな S 字カーブになった。 昨日、記念にBloggerに貼りつけた。
んで、これくらいならロジット、 正規分布関数の逆関数の変換をかまして、 どっちが直線っぽいかが分かるかもと試してみた。 こころもちロジスティク分布の方がいいけど、 全然、区別がつかない。どう考えても誤差の範囲。 けど、もったいないから、さっき貼りつけた。
5年ごとが粗いのかと毎年のものにしてみたけど、やっぱり誤差の範囲。
さて、どうしたもんかねえ。
;; って、内容をさっき保存したつもりだったんだけど。あれ。
ぼけてる More ログイン