文書インデックスか、単語インデックスか (#782940) | NCSAがYahoo!とGoogleのインデックス数を比較

「NCSAがYahoo!とGoogleのインデックス数を比較」記事へのコメント

記事ページを表示すべてのコメント取得

検索98コメント Log In/Create an Account

文書インデックスか、単語インデックスか (スコア:3, すばらしい洞察)

by jl4cvb (4926) on 2005年08月17日 16時15分 (#782940)

検索エンジンは、文章の適合度を tf*idf つまり
「個々の文章に出る単語の頻度」と「文章集合中の単語頻度の逆数（語の珍しさ）」の積で
計算するのを基本としているので、出現頻度の少ない語（long tail）を使えば
閾値の差が問題になりにくい（tf=1でも閾値を越えるように設計していると予想できる）
てーのはあると思います。

その反面、検索エンジン（文書の登録部分）は
余りに出現頻度の低い語に対しては単語のインデックスを作らないように
している可能性があります（そうしないとインデックス数が爆発するから）。

NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
検索を繰り返したそうなので、登録時の閾値が原因で Yahoo の検索結果が
少なくなった可能性があります。

スラッシュドットで検索した結果 [srad.jp]
にもあるように、頻度の高い語で検索すれば Yahoo の結果の方が多いので、

　文章登録数は　Yahoo＞google
　単語登録数は　google＞Yahoo

なんじゃないかなーと。
- Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
  
  by phason (22006) <mail@molecularscience.jp> on 2005年08月17日 16時39分 (#782946) 日記
  
  >出現頻度の少ない語（long tail）
  
  頻度が少ない、と言う意味でlong tailを使うのには非常に違和感が。
  long tailだろうがshort tailだろうが尾の部分は頻度が少ないわけで。
  
  と言うのはまあおいといて。
  
  >NCSAは検索結果の数が 1000 以下になるまでランダムに単語を追加して
  >検索を繰り返したそうなので
  
  すいませんが、これはどこの記述でしょうか。
  資料を読んだ限りではランダムに2つの単語を使って、結果が1000以下の
  ものだけ使用したように読めたもので。
  #もしかしてPERLのスクリプトにはそう書かれているんでしょうか？
  #いや、FORTRAN以外は読み慣れてないんで飛ばしちゃったんですよね。
  
  シェア
  
  親コメント
  - Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)
    
    by jl4cvb (4926) on 2005年08月17日 16時48分 (#782949)
    
    あ、
    
    > ランダムに2つの単語を使って、結果が1000以下の
    > ものだけ使用したように読めたもので。
    
    こっちが正しいです。
    
    シェア
    
    親コメント
  - Re:文書インデックスか、単語インデックスか (スコア:0)
    
    by Anonymous Coward
    
    > 頻度が少ない、と言う意味でlong tailを使うのには非常に違和感が。
    この場合度数分布の積分（を積分区間の関数と見たもの）がどのように収束するかは問題になっていないので、単に頻度が低いという意味で解釈して問題ないと思う。
- Re:文書インデックスか、単語インデックスか (スコア:0)
  
  by Anonymous Coward
  
  >　文章登録数は　Yahoo＞google
  >　単語登録数は　google＞Yahoo
  >
  >なんじゃないかなーと。
  
  利益とか、社員数とか、顧客数などについて分析してまとめると立派なレポートになりそうだ。

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

NCSAがYahoo!とGoogleのインデックス数を比較 More ログイン

「NCSAがYahoo!とGoogleのインデックス数を比較」記事へのコメント

文書インデックスか、単語インデックスか (スコア:3, すばらしい洞察)

Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)

Re:文書インデックスか、単語インデックスか (スコア:2, 参考になる)

Re:文書インデックスか、単語インデックスか (スコア:0)

Re:文書インデックスか、単語インデックスか (スコア:0)

スラド