アカウント名:
パスワード:
www.cybergeography.org [cybergeography.org]
中でも An Atlas Of Cyberspaces [cybergeography.org]
世の中にはほかのサイトのコピーを持っている、いわゆるミラーサイトがありますよね。これをgoogleが持っているwebページから掘り起こすというのは?
Googleはキャッシュこそ持っていますが、それがup-to-dateとは限りません。その点ではミラーサイトが検索結果についてくると使いでがあるかなぁ。内容がダブった分を差し引くと、webページの数(異なり数?)ってどれぐらいまで減るんだか...
ミラーページである事の判定ってすっごく難しくて、 立派に(?)研究課題となっています。 いちいちマッチングを取ってると20億ページなんて 処理できませんし。
Webページは収集してきたはいいのだけど、 ミラーページの選別除去とかHTML違反のページの処理を どうするかとか、悩ましいです。(コンテストのページから ダウンロードできるソースは参考になってます)
この説明 [u-tokyo.ac.jp]を読んだ限りではどう考えてもトートロジー (同義反復) に思えるのですが、なにか内容のある法則なんでしょうか。(上の AC さんのコメントによると有名な法則だそうですので、きっときちんと内容のある法則なんでしょうが...)
それとも、ぼくは、無粋なツッコミをしてしまっているのでしょうか...
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
吾輩はリファレンスである。名前はまだ無い -- perlの中の人
誰かやりそうなこと (スコア:2, 興味深い)
Re:誰かやりそうなこと (スコア:1)
Googleの持ってるデータすべてに対してやって、この前話題になった3次元マップとか作ってみたり。
Re:誰かやりそうなこと (スコア:1)
www.cybergeography.org [cybergeography.org]
中でも An Atlas Of Cyberspaces [cybergeography.org]
Re:誰かやりそうなこと (スコア:1)
- 3次元空間の広さは扱う話題 (概念) の幅による
- 密度は要素数による
- 要素間距離は関連性 (リンク) による
のですが、20億ページとなると広さと密度のバランスが取りにくいでしょう。そこで、解像度に応じてGoogle Rankでフィルターをかけるのがいいかと。マクロを見回すときはランクの高いものだけを表示し、ミクロに観察するときはランクの低いものも表示する、という具合に。3D処理はクライアント側になりますから、GoogleはMCFを吐き出すだけでよく、検索結果をHTMLで吐き出すのと大差なく実現できそうですね。あとはMCFを随時必要な分送信する仕組みさえあれば……MCFストリーミング?
ハイパーリンク構造に対抗して (スコア:1)
世の中にはほかのサイトのコピーを持っている、いわゆるミラーサイトがありますよね。これをgoogleが持っているwebページから掘り起こすというのは?
Googleはキャッシュこそ持っていますが、それがup-to-dateとは限りません。その点ではミラーサイトが検索結果についてくると使いでがあるかなぁ。内容がダブった分を差し引くと、webページの数(異なり数?)ってどれぐらいまで減るんだか...
Re:ハイパーリンク構造に対抗して (スコア:1)
ミラーページである事の判定ってすっごく難しくて、 立派に(?)研究課題となっています。 いちいちマッチングを取ってると20億ページなんて 処理できませんし。
Webページは収集してきたはいいのだけど、 ミラーページの選別除去とかHTML違反のページの処理を どうするかとか、悩ましいです。(コンテストのページから ダウンロードできるソースは参考になってます)
Re:誰かやりそうなこと (スコア:1, 参考になる)
引用元が間違ってるから仕方ないのでしょうが、Zipf's lawです。超有名なので覚えておきましょう。
トートロジーじゃないの? (スコア:1)
この説明 [u-tokyo.ac.jp]を読んだ限りではどう考えてもトートロジー (同義反復) に思えるのですが、なにか内容のある法則なんでしょうか。(上の AC さんのコメントによると有名な法則だそうですので、きっときちんと内容のある法則なんでしょうが...)
それとも、ぼくは、無粋なツッコミをしてしまっているのでしょうか...
Re:トートロジーじゃないの? (スコア:1)
こちらの説明ならわかります。
Re:トートロジーじゃないの? (スコア:0)
しかしTF-IDFの説明なんかの前にはZipfの話は大抵でてくると思うのですが…
Re:トートロジーじゃないの? (スコア:0)