アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
文書インデックスか、単語インデックスか (スコア:3, すばらしい洞察)
「個々の文章に出る単語の頻度」と「文章集合中の単語頻度の逆数(語の珍しさ)」の積で
計算するのを基本としているので、出現頻度の少ない語(long tail)を使えば
閾値の差が問題になりにくい(tf=1でも閾値を越えるように設計していると予想できる)
てーのはあると思います。
その反面、検索エンジン(文書の登録部分)は
余りに出現頻度の低い語に対しては単語のインデックスを作らないように
している可能性があります(そうしないとインデックス数が爆発するから)。
NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
検索を繰り返したそうなので、登録時の閾値が原因で Yahoo の検索結果が
少なくなった可能性があります。
スラッシュドットで検索した結果 [srad.jp]
にもあるように、頻度の高い語で検索すれば Yahoo の結果の方が多いので、
文章登録数は Yahoo>google
単語登録数は google>Yahoo
なんじゃないかなーと。
Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
頻度が少ない、と言う意味でlong tailを使うのには非常に違和感が。
long tailだろうがshort tailだろうが尾の部分は頻度が少ないわけで。
と言うのはまあおいといて。
>NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
>検索を繰り返したそうなので
すいませんが、これはどこの記述でしょうか。
資料を読んだ限りではランダムに2つの単語を使って、結果が1000以下の
ものだけ使用したように読めたもので。
#もしかしてPERLのスクリプトにはそう書かれているんでしょうか?
#いや、FORTRAN以外は読み慣れてないんで飛ばしちゃったんですよね。
Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
> ランダムに2つの単語を使って、結果が1000以下の
> ものだけ使用したように読めたもので。
こっちが正しいです。
Re:文書インデックスか、単語インデックスか (スコア:0)
この場合度数分布の積分(を積分区間の関数と見たもの)がどのように収束するかは問題になっていないので、単に頻度が低いという意味で解釈して問題ないと思う。
Re:文書インデックスか、単語インデックスか (スコア:0)
> 単語登録数は google>Yahoo
>
>なんじゃないかなーと。
利益とか、社員数とか、顧客数などについて分析してまとめると立派なレポートになりそうだ。