パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

ノイズの少ない検索エンジン」記事へのコメント

  • by Anonymous Coward on 2004年04月13日 17時57分 (#531102)
    もろ、お世話になっている業界のものですが、2年くらい前から「仕事の」検索ではGoogle+Scirusがデフォルトです。

    ただ、会社が全文閲覧の契約をあまりしていないと、結局米国立バイオテクノロジー情報センター(NCBI [nih.gov])のPubMed [nih.gov]と変わりないでので、もっぱらJournalを対象から外して、実験手法やいろいろなラボのHPの検索に使っていますが・・・

    他の業界の人に、メリットのあるエンジンとは思えないんですが・・・・どんなものでしょうか?

    今は出向中なのでAC。

    • by gigo (21150) on 2004年04月14日 7時10分 (#531379)
      検索エンジンは、ロボットを使ってサイトを巡回してページを読み、だいたい現れる語の頻度から重要な単語(索引語)を選んでDBに保存します。Journalのサイトはどこにあるか分かっているので、ひたすら索引語を抽出するだけですが、AIPのサイトは、目次やabstractにも著作権があるから勝手に読むなと言ってやらせてくれません。エルセビアなんかは、ビジネスのためにはそっちの方が良いと思って、とにかく情報を出すので上位にランクされることになる。

      索引語とユーザーの入力した単語の一致でアタリを判断しますが、普通ユーザーは1つか2つの単語しか入力しないので、良い検索ができるわけがありません。動作からやっていることを推測すると、Scirusは単なる頻度でなく、物理学(医学)辞典にのっているような専門用語を索引語に選ぶようにしているのでは。そうすると、科学的には重要でも普通はstop wordになるもの(He、ヘリウムとか)もつかまります。

      CiteSeer(ごめんなさい)は、Googleを使う以上それで取れる索引語はあまりよくないので、いったん検索したあとでユーザーが索引語を改良できるようなインターフェースがあった思った。

      scitationは専門用語辞書に加えて、それまでの検索結果から索引語を抽出しようとするみたい。ユーザーがどのような情報を持っているかから、次に何を欲しがるか推測しようとするのだけれど、これを実際に検索する時に入力するわけにはいかないから、それまでの検索結果をサーバーが個人を認識してとっておくのでなければ、ハードディスクの中をこっそり巡回してその人の読書傾向を調べてサーバーに送るような解になってしまいます。それでは困るのでアイデア要だと思います。

      親コメント
      • なるほど

        生物系の場合AbstructはMEDLINE(Pubmed)としてオープンになってるし(すいません、生物学系に話持っていって)、本文も他出版社の分も含めてScienceDirectとして自前で持ってる訳で、自分のところの雑誌を優遇していたらやだな、と思ったんです。利益が絡む企業がやってるんで当然といえば当然だし、一部の雑誌だけでも全文検索できるのはありがたいのですけども。

        検索結果の表示の画面で興味を持った論文とかウェブサイトにチェックを入れて保存していくと(実際Scirusの検索結果にはそれがあるのだけど)、保存されたレコードを元に新しい検索結果に重み付けをしてくれるような仕組みはあったらいいかなと。実際、索引語がどれくらいオーバーラップしてるかで類似レコードを引っ張ってくる仕組みはSirusに搭載されてるみたいだし(similar resultsなんてのがある)、技術的には難しくないんじゃないかと思ったりします。その辺については素人ですが。

        一見さんには適用できないので意味はないかもしれないけど、研究者が使うことが多いと思うので、興味にあわせたランク付けってのはあるとうれしいですね。

        #結局、時間かけて検索語をうまく工夫して絞り込めばいいだけなんですけど、
        #もうちょっと楽できないかな、とも思う訳で。
        親コメント
    • by momochi (17543) on 2004年04月14日 4時27分 (#531353)
      おお、検索対象からJournalを外せるんですね。
      雑誌だったらPubmedで十分だけど、研究機関とかのウェブサイトをサーチするには便利そうだ。

      と、調べながら書いてて気がついたんだけど、Scirusって論文の全文を検索できるみたいですね。
      ScienceDirectに入っている雑誌だけですけど、Figure LegendsとかMatrials and Methods
      の中の文章が引っかかってきました。Pubmedにはできない芸当です。

      #全体的にElsevierが出す雑誌の論文が結果の上位にくるようになってる気がする。
      #Elsevier以外の一部の雑誌の全文もいちおうでてくるんですが。
      #日付順でもないし、どういう基準で並んでるんだろ?
      親コメント

あと、僕は馬鹿なことをするのは嫌いですよ (わざとやるとき以外は)。-- Larry Wall

処理中...