/.jpも対象の即時に検索 48
ストーリー by wakatono
がんばれ和製サーチエンジン 部門より
がんばれ和製サーチエンジン 部門より
kona 曰く、 "NTTのニュースリリースによると, NTT は gooを運営するNTT-Xと共同で, 「8000万ページと言われる日本国内の全Webページをカバーしつつ、最短で15分前にWebサーバに掲載された情報の検索を可能にし、日々刻々と変化する各種ニュースは勿論のこと、新製品情報やスポーツ速報、最新のイベント情報などあらゆる情報を、どこよりも早く検索することを可能」とした 最新Web検索実験サービスを実施するとのこと. 試してみると /.jp の新し目のコメントもHitして, 人によっては使い出がありそうだが, ここのところGoogleにずいぶんと水をあけられた感の有るgooの復活の足がかりとなり得るだろうか?"
変化にいち早く対応するのは重要だ。それを実現した上でぜひ重み付けなどにもチャレンジしてほしい。Googleの使い勝手の良いところは、検索結果の上位にくるものはかなりの確度で役立つものであるというところだ。願わくばGooデビュー当時のインパクトをもう一度。
巡回間隔 (スコア:4, 参考になる)
自分とこ [bulknews.net]ですがだいたい、15分間隔できてます。
[05/Dec/2002:22:54:29 +0900]
[05/Dec/2002:23:15:18 +0900]
[05/Dec/2002:23:31:50 +0900]
[05/Dec/2002:23:53:00 +0900]
Re:巡回間隔 (スコア:2, 参考になる)
以前はUser-AgentをIEに偽装してrobots.txtも読まなかったみたいですね。
今はrobots.txtを読んでいるみたいです。
gooのbotって前々からあまり評判がよろしくない気がする…
Re:巡回間隔 (スコア:2, 参考になる)
わざわざ一分間隔空けてました。
[03/Dec/2002:19:04:01 +0900] "GET / HTTP/1.1"
[03/Dec/2002:19:05:01 +0900] "GET /start.html HTTP/1.1"
[03/Dec/2002:19:06:02 +0900] "GET /menu.html HTTP/1.1"
意外と(?)細かいところまで気を使ってるんですね。
Re:巡回間隔 (スコア:1)
ゆーへん
Re:巡回間隔 (スコア:1)
だからといって解除する気は毛頭なし
-- やさいはけんこうにいちば〜ん!
Slashdot Japanサイドバー (スコア:1)
これいいですね。サイドバー対応のブラウザで使うものですよね。
実はこの「Slashdot Japanサイドバー 」の存在は、以前から知ってまして、
でんすけさんに直接メールを出そうかと思いましたが、お忙しいでしょうから
やめました。
tDiaryのプラグインになったらいいなと(^^;
くれくれ君ですみません。
Rubyがわかるなら私も作ろうかなと思うのですが。
でんすけさんは既にご存知でしょうが…
http://www.tdiary.org/ [tdiary.org]
http://www.tdiary.net/ [tdiary.net]
どさくさまぎれの宣伝(^^; 太陽雑音 [tdiary.net]
Re:Slashdot Japanサイドバー (スコア:1)
プラグイン化かぁ...できなくはないけど有用なのか微妙
-- やさいはけんこうにいちば〜ん!
Re:巡回間隔 (スコア:0)
Re:巡回間隔 (スコア:0)
恥ずかしいのでAC
新しいのより、古いのを消して欲しい (スコア:3, すばらしい洞察)
大学の学生が作成したページだと、卒業したらすぐに削除されてしまうことが
多いらしくてNot Foundが多いです。
フリーホームページサービスも、すぐ無効になってしまうらしくてNotFoundが多いですね。
Not FoundになってもキャッシュがあるからGoogleに走っちゃうんですよね。
gooっていうと (スコア:2, 興味深い)
検索制度と安定性が非常に悪くなってしまったと思う。
その頃に使い物にならないと思って見捨ててから
まったく使った事がないです。
これでgoogleからの復権なるのか?
Re:gooっていうと (スコア:1)
見つかるものが全然みつからなくなったし。
あと、クッキーを大量に要求されるのも嫌になった理由でした。
さて、どうなるのか楽しみです。
件のシステムは (スコア:0)
# あまりにナニなのでAC
Google も何かしている (スコア:2, 参考になる)
Google も /. へは一日一回クロールに来ているようです。
なのでキーワードをうまく選べば Google でもこれに近いことが出来ます。
まぁ NTT-X 並みの15分とかは無理ですが。
Re:Google も何かしている (スコア:3, 参考になる)
Google は 30+ 億ページで NTT-X が ~1 億なので、件数とクロール間隔の比率で見ると性能は拮抗している、もしくは NTT-X がちょっと上?それぞれのシステムの構成はどうなんでしょうね。
ちなみに Google のはこちら(google.com のどこかにもあったよううな…):
http://www.intel.com/eBusiness/casestudies/snapshots/google.htm [intel.com]
http://www.redhat.com/casestudies/Google.html [redhat.com]
# たまにやる「昔のメールアドレス検索」でテストしたら Google の方が網羅性は高かった
ニュースサイトだけ? (スコア:1)
Google によるニュースサイトの検索では、上位のものにキャッシュ日時が出ます。
この日付は通常の検索では出ません。
なお、どれもキャッシュ日付が妙に早いです。
新聞系ニュースサイトとして、アサヒ・コムで拉致を 検索 [google.co.jp]
コンピュータ系ニュースサイトとして、ZDNet で Linux を 検索 [google.co.jp]
個人ニュースサイトとして、sawadaspecial.com でビキニカラテを 検索 [google.co.jp](笑)
日付表示が (スコア:1)
時間が少々経つと扱いを変えるようです。
うーん、謎だらけだ。
Re:日付表示が (スコア:1)
なお、キャッシュ日は 2002/12/06 です。
いつになったら日付表示が消えるかしばらく追跡してみます。
Gooっていつも実験だけ? (スコア:2, すばらしい洞察)
あまり意味がない? (スコア:1, 参考になる)
Re:人によっては... (スコア:1, おもしろおかしい)
#「うpしますた」とか。
Re:あまり意味がない? (スコア:1)
このサービスになってからは対象外になってしまったようですね。
他の人の日記からネタ拾いするのに便利だったのですが。
私にとっても残念ながらあまり意味がなくなってしまいました。
うーん、まただよぉ (スコア:0)
それとも、本来の意味でのスレ (#212774 から始まるようなもの) のことを言いたかったのでしょうか。
Re:うーん、まただよぉ (スコア:1, 参考になる)
乱暴な例え話になるけど、イヌしかいなくてネコがいない(ネコの存在が知られていない)世界では、イヌのことを別名あるいは通称でネコと呼んでも構わないけど、イヌもネコも存在する世界では、イヌのことをネコと呼ぶと混乱の元になります。ネコと言ったとき、それが本来のネコのことなのか、イヌのことを話しているのか、わからなくなってしまいますから。
それとも、いっそのこと、「アレ」って呼んでみる?
Re:うーん、まただよぉ (スコア:0)
「オフトピ」で十分だ.
Googleの何がいいって、 (スコア:1, すばらしい洞察)
だからgooにもこの機能だけ抜き出した専用のページを作っていただきたいなと思うんですが。
シンプル (スコア:2, 参考になる)
実験提供中のサイト [infobee.ne.jp]はいたってシンプルですね。好感。
ただ商用運用となると、広告スペースを作ったり雑多なコンテンツを入れたりしていくことになるんでしょうね。
#それより私はこのエンジンに対応したツールバーがほしい
Re:シンプル (スコア:1)
売上をあげなきゃならないという立場からすると難しいのかもしれないけど、Googleが成功したのは何も「検索結果」の優秀さだけではないのだから....。
Re:シンプル (スコア:1)
「google が成功したのは Web サービスのインタフェースを
提供したから」
ではないと思うよ。
Re:シンプル (スコア:1, 参考になる)
ツールバーってコレの事でしょうか?
http://stick.goo.ne.jp/
「検索」ボタンの右にある「最速NEWS」でこの実験に繋がります。
Re:シンプル (スコア:0)
まぁ、検索サイトとしてgooを使えばいいだけかもしれませんが日本語パック入れてないと使えないのがちょっと...
Re:Googleの何がいいって、 (スコア:1)
このページに巻き上げたgoo.co.jpを使うのがいいかも
十六夜
巡回ペース (スコア:1, 興味深い)
人によっては迷惑なペースのような。
#robot.txt更新しなくては。
Re:巡回ペース (スコア:1, 興味深い)
自分のほうからサーチエンジンに知らせてあげる枠組みは作れないものだろうか。
協力者はサーバにアドインを仕込む。更新したときには
自動的にサーチエンジンのデータベースに登録してあげる。
こうすると無駄がない上に提供者の意思で登録したりはずせたりして便利なんだけど。しかも最速。
Re:巡回ペース (スコア:2, 参考になる)
これが入れば今のリンクと同じようにモニタ関係で結ばれたページ群が各所に自己生成して、その中から生まれた巨大群だけサーチエンジンがモニタ、みたいな構造ができそうです。
Re:巡回ペース (スコア:1)
最短間隔でのモニタが必要と判定されるページが 1000 ページもあれば毎秒アクセスがくる勘定になるのでちょっと迷惑かもしれませんが、そういう所はきっとそれなりの規模とアクセスがあるのでOKでしょう。
# それに一律 15 分間隔では処理をどれだけ細分化しても
# 圧倒的な流入データ量で自分の方が詰まってしまいそう
Re:巡回ペース (スコア:1, 参考になる)
更新頻度を学習して巡回ペースにメリハリを付けてるっぽいですね。
1ホストへのアクセス集中についてもそれなりに配慮しているようです。
Linuxクラスタなんですね。
Re:巡回ペース (スコア:0)
robots.txtを変更しないと意味がない罠。
#あまりにつまらないつっこみなのでAC
robots.txt (スコア:0)
とりあえずrobots.txtをrobot.txtにコピーしましたが。
使ってみると (スコア:0)
使い方によってはかなり便利そうです。
Googleとフツーに勝負しないで、相手のできないことをやる
というのはいいですね。
# 選択がたくさんあることはいいことだ
Re:使ってみると (スコア:1)
某掲示板でも (スコア:0)
最短15分前の情報を網羅する検索エンジン [2ch.net]
無意味単語を書き込み→15分後に検索 で遊んでるようです.
#某掲示板の話題なのでAC
Fresheyeの立場は・・・ (スコア:0)
Re:Fresheyeの立場は・・・ (スコア:0)
# ネタ的にやばいのでAC。
「教授脳」 (スコア:0)
/.Jくらいしか出てない単語と思ったが。
しかし、よく結果を見ると漢字は1字毎に区切って検索している。
「XX大学教授 脳神経生理学」
-------
でもひっかかる。
結果の検証が大変そう。
Re:「教授脳」 (スコア:1)
なさそうです。「脳神経」を「脳 / 神経」と区切っているのでしょう。
Googleも同様の解析をしていますね。chasenだとどーなんだろう..
これってさ (スコア:0)
検索結果の品質を思いっきり劣化させることって可能なんじゃないかと思うんだけど??
みすずんのログ消失とニュー速の書き込み規制 (スコア:0)
この実験のせい?ってのは単なる勘繰りですか?