torlyの日記: オキテタセンイふたたび
日記 by
torly
統計学が明らかにするWikipediaのバイアス(ただしアメリカ)
2大政党(どっちがどっちだかいつも分からなくなるが、Rep=ブッシュ、Dem=オバマである)の政治家たちは選挙民に呼びかけるのに(特に書いてないが、おそらくは各々の政党の立ち位置に基づいて)コード化された、あまり重複のない単語の集まりを用いるだろうというモデルに基づき、まずは各党のメンバーが高頻度で使う単語を2005年の議事録から抜き出す。そして、Wikipedia(特に書いてないがもちろん英語版だろう)のrepublican(共和党員)またはdemocrat(民主党員)という単語を含む記事のみを集め、そこから各党の特徴単語がいくつ現れるかを通じてどちらの政党に「偏向」しているかを調べるという手法。
その結果、
- 初期のWikipedia(無論英語版)における政治的な記事は民主党寄りだが、徐々に全体のカラーに近づいてくる
- 予想通りの政治的バイアスが現れる記事もあれば、予想に反してバイアスを計れなかった記事もある(外交政策、戦争と平和、中絶など)
- 大概の記事は大いに「偏向」した状態で作られ、その後若干中立に近づく。全体のバイアス度は対立する属性の記事が増えることによって中立に寄る
といったことが分かった。
他国の似た名前の政党について書いた記事はどうやって避けたんだろうとか、そもそもどちらの政党にも現在は支持されてない主義(白人至上主義、ナチズム、アナーキズム、共産主義など)はどうなんだろうとか全然本編と関係ないことがきになってしまった。
オキテタセンイふたたび More ログイン