パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Google Programming Contest開催」記事へのコメント

    • 文字コード単位でのエントロピを計算する

      昔Brownが計算したのだと文字単位で4bit弱だったかなぁ... 少なくともgoogleが持っているページはBrown Corpusよりも大きいだろうから、うまくやれば厳密な計算ができるかな?

    • 単語について
    • 互いのリンク構造を可視化してみたいなぁ。
      Googleの持ってるデータすべてに対してやって、この前話題になった3次元マップとか作ってみたり。
      • 世の中にはほかのサイトのコピーを持っている、いわゆるミラーサイトがありますよね。これをgoogleが持っているwebページから掘り起こすというのは?

        Googleはキャッシュこそ持っていますが、それがup-to-dateとは限りません。その点ではミラーサイトが検索結果についてくると使いでがあるかなぁ。内容がダブった分を差し引くと、webページの数(異なり数?)ってどれぐらいまで減るんだか...

        親コメント
        • ミラーページである事の判定ってすっごく難しくて、 立派に(?)研究課題となっています。 いちいちマッチングを取ってると20億ページなんて 処理できませんし。

          Webページは収集してきたはいいのだけど、 ミラーページの選別除去とかHTML違反のページの処理を どうするかとか、悩ましいです。(コンテストのページから ダウンロードできるソースは参考になってます)

          親コメント

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

処理中...