アカウント名:
パスワード:
昔Brownが計算したのだと文字単位で4bit弱だったかなぁ... 少なくともgoogleが持っているページはBrown Corpusよりも大きいだろうから、うまくやれば厳密な計算ができるかな?
世の中にはほかのサイトのコピーを持っている、いわゆるミラーサイトがありますよね。これをgoogleが持っているwebページから掘り起こすというのは?
Googleはキャッシュこそ持っていますが、それがup-to-dateとは限りません。その点ではミラーサイトが検索結果についてくると使いでがあるかなぁ。内容がダブった分を差し引くと、webページの数(異なり数?)ってどれぐらいまで減るんだか...
ミラーページである事の判定ってすっごく難しくて、 立派に(?)研究課題となっています。 いちいちマッチングを取ってると20億ページなんて 処理できませんし。
Webページは収集してきたはいいのだけど、 ミラーページの選別除去とかHTML違反のページの処理を どうするかとか、悩ましいです。(コンテストのページから ダウンロードできるソースは参考になってます)
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs
誰かやりそうなこと (スコア:2, 興味深い)
昔Brownが計算したのだと文字単位で4bit弱だったかなぁ... 少なくともgoogleが持っているページはBrown Corpusよりも大きいだろうから、うまくやれば厳密な計算ができるかな?
Re:誰かやりそうなこと (スコア:1)
Googleの持ってるデータすべてに対してやって、この前話題になった3次元マップとか作ってみたり。
ハイパーリンク構造に対抗して (スコア:1)
世の中にはほかのサイトのコピーを持っている、いわゆるミラーサイトがありますよね。これをgoogleが持っているwebページから掘り起こすというのは?
Googleはキャッシュこそ持っていますが、それがup-to-dateとは限りません。その点ではミラーサイトが検索結果についてくると使いでがあるかなぁ。内容がダブった分を差し引くと、webページの数(異なり数?)ってどれぐらいまで減るんだか...
Re:ハイパーリンク構造に対抗して (スコア:1)
ミラーページである事の判定ってすっごく難しくて、 立派に(?)研究課題となっています。 いちいちマッチングを取ってると20億ページなんて 処理できませんし。
Webページは収集してきたはいいのだけど、 ミラーページの選別除去とかHTML違反のページの処理を どうするかとか、悩ましいです。(コンテストのページから ダウンロードできるソースは参考になってます)