アカウント名:
パスワード:
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常
文書インデックスか、単語インデックスか (スコア:3, すばらしい洞察)
「個々の文章に出る単語の頻度」と「文章集合中の単語頻度の逆数(語の珍しさ)」の積で
計算するのを基本としているので、出現頻度の少ない語(long tail)を使えば
閾値の差が問題になりにくい(tf=1でも閾値を越えるように設計していると予想できる)
てーのはあると思います。
その反面、検索エンジン(文書の登録部分)は
余りに出現頻度の低い語に対しては単語のインデックスを作らないように
している可能性があります(そうしないとインデックス数が爆発するから)。
NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
検索を繰
Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
頻度が少ない、と言う意味でlong tailを使うのには非常に違和感が。
long tailだろうがshort tailだろうが尾の部分は頻度が少ないわけで。
と言うのはまあおいといて。
>NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
>検索を繰り返したそうなので
すいませんが、これはどこの記述でしょうか。
資
Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
> ランダムに2つの単語を使って、結果が1000以下の
> ものだけ使用したように読めたもので。
こっちが正しいです。