パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

Google Programming Contest開催」記事へのコメント

  • by brake-handle (5065) on 2002年02月08日 1時02分 (#60822)
    • 文字コード単位でのエントロピを計算する
      昔Brownが計算したのだと文字単位で4bit弱だったかなぁ... 少なくともgoogleが持っているページはBrown Corpusよりも大きいだろうから、うまくやれば厳密な計算ができるかな?
    • 単語についてZiphの法則 [u-tokyo.ac.jp]を検証する(膠着語などは除外?)
      巨大なコーパスで遊んでみたいこと第2弾。
    • 互いのリンク構造を可視化してみたいなぁ。
      Googleの持ってるデータすべてに対してやって、この前話題になった3次元マップとか作ってみたり。
      親コメント
      • by oltio (3848) on 2002年02月08日 2時12分 (#60841) 日記

        www.cybergeography.org [cybergeography.org]

        中でも An Atlas Of Cyberspaces [cybergeography.org]

        親コメント
      • 元3次元マップ利用者ですが、経験上3次元マップが快適なのは要素数がある一定範囲内に収まっているときです。3次元マップにおいては、
        • 3次元空間の広さは扱う話題 (概念) の幅による
        • 密度は要素数による
        • 要素間距離は関連性 (リンク) による
        のですが、20億ページとなると広さと密度のバランスが取りにくいでしょう。そこで、解像度に応じてGoogle Rankでフィルターをかけるのがいいかと。マクロを見回すときはランクの高いものだけを表示し、ミクロに観察するときはランクの低いものも表示する、という具合に。
        3D処理はクライアント側になりますから、GoogleはMCFを吐き出すだけでよく、検索結果をHTMLで吐き出すのと大差なく実現できそうですね。あとはMCFを随時必要な分送信する仕組みさえあれば……MCFストリーミング?
        親コメント
      • 世の中にはほかのサイトのコピーを持っている、いわゆるミラーサイトがありますよね。これをgoogleが持っているwebページから掘り起こすというのは?

        Googleはキャッシュこそ持っていますが、それがup-to-dateとは限りません。その点ではミラーサイトが検索結果についてくると使いでがあるかなぁ。内容がダブった分を差し引くと、webページの数(異なり数?)ってどれぐらいまで減るんだか...

        親コメント
        • ミラーページである事の判定ってすっごく難しくて、 立派に(?)研究課題となっています。 いちいちマッチングを取ってると20億ページなんて 処理できませんし。

          Webページは収集してきたはいいのだけど、 ミラーページの選別除去とかHTML違反のページの処理を どうするかとか、悩ましいです。(コンテストのページから ダウンロードできるソースは参考になってます)

          親コメント
    • by Anonymous Coward on 2002年02月08日 2時50分 (#60852)
      > Ziphの法則

      引用元が間違ってるから仕方ないのでしょうが、Zipf's lawです。超有名なので覚えておきましょう。
      親コメント
    • この説明 [u-tokyo.ac.jp]を読んだ限りではどう考えてもトートロジー (同義反復) に思えるのですが、なにか内容のある法則なんでしょうか。(上の AC さんのコメントによると有名な法則だそうですので、きっときちんと内容のある法則なんでしょうが...)

      それとも、ぼくは、無粋なツッコミをしてしまっているのでしょうか...

      親コメント

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

処理中...