パスワードを忘れた? アカウント作成
1402 story

100億ページ100TBのWebアーカイブ 25

ストーリー by koyhoge
大きいことはいいことだ? 部門より

takusi 曰く,"Impressの記事によるとインターネットのライブラリを作ることを目指しているInternet Archiveが、過去のWebページを保存した「Wayback Machine」を公開したとのこと。1996年からの100億ページのWebページが保管されており、これらを検索したり閲覧することができるとある。"

このネタは/.J読者の琴線に触れたらしく、複数のタレコミをいただいた。Fizz 曰く,"現在100TByte,毎月10TByteずつデータが増加しているそうですが... いったいどんな記憶装置を使っているのでしょう?故障率が低くても台数が多ければ馬鹿になりません。というか、普通のハードディスクで賄えるのでしょうか? ここはぜひ日経コンピュータに取材していただかなくては。題名は 『(こんな規模でも)動くコンピュータ』"、 bangchoo 曰く,"でも,こゆ風にある時点でのインターネット全体をスパッとアーカイブ化するって面白れーよな.世界をそのままフリーズドライしたみたい,パラダイムがビミョーに歪むカンジ.後日思いもよらない犯罪操作とかに役立ったりして...." 等々、さまざまな感想が寄せられている。

集めるのも大変なことだが、そこから有用な情報を抽出するのはさらに大変なことのように思う。全部で100億ページもあれば、一回も参照されないページもかなりの割合であるのだろうなぁ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by kubota (64) on 2001年10月30日 10時46分 (#33945) ホームページ 日記
    があれば、そのアーカイブの内容もまるまるアーカイブしないといけなくなってしまうのでは? そうすると、その「他のアーカイブ」もこの Internet Archive の内容をまるまるアーカイブしないといけなくなる。そうすると Internet Archive はその「他のアーカイブ」を...
  • 興味深い (スコア:3, おもしろおかしい)

    by bangchoo (2646) <taroh@nifty.com> on 2001年10月30日 1時34分 (#33829) ホームページ
    ザナドゥ・プロジェクトをおもいだすなぁ....

    アーカイブの資料的価値云々よりも,上にも書いたように,「ある瞬間のネットをそのままフリーズさせてある」ところがコンセプチュアルでカッチョいい!

    想い出のアルバムをめくっているみたい.今いろいろ検索して遊んでるトコロです.
  • by namatias (4000) on 2001年10月30日 6時19分 (#33884) 日記

    どんな時代を自分たちが生きてきたかの指標にはなりますよね。こういうアーカイブ系のサイトというのは。

    ところで、アーカイブするのはいいんですが、一生かけてどこまで見られるんでしょう。人の一生を80年として、80x365=29200日、半分は寝ているとしても 29200x12=350400時間あるわけです。新聞を隅から隅まで見るのに1時間かかるとして、そのデータ量は30万字=30x10000x1.5Bytes=450KBytesほどです。1ページの情報量が仮に5KBytes程度とすれば、1時間で90ページ見られます。すなわち、一生かけて3千万ページほどです。とてもじゃないが100億には届きませんな。

    ちなみに、速読法を身につけている人が、ADSL1.5MBit/Secでマッハの速度で読むとして、1秒あたり38ページほど読むことが出来ます(おぃ!) ということは、一生で 480億ページほど読めます。予習・復習まで入れてもお釣りが来る量読めますね。

  • by take0m (4948) on 2001年10月30日 1時44分 (#33832) 日記
    リンクもあるけど、昔っからやってるAlexaのサービスなのかな?
  • 書き忘れ (スコア:2, 興味深い)

    by tanji (6368) on 2001年10月30日 1時53分 (#33834) ホームページ
    そうそう、これ鯖FreeBSDなんですね。(From FAQ)
  • by take0m (4948) on 2001年10月30日 1時55分 (#33837) 日記
    検索に異常に時間が掛かるところを見ると、大容量ストレージですかね?VHSテープとか、DVD-Rとか・・・ もちろんキャッシュもがんがんしているんでしょうけど。

    個人的なヨミだと、SONYのペタサイトあたりじゃないかと思います。実は以前ペタサイト使っていたんですよ・・・よくトラぶってましたけど。

    ペタサイトの最大容量は11.2PBです。
  • データの墓場 (スコア:2, おもしろおかしい)

    by yasubei (6188) on 2001年10月30日 2時09分 (#33840) 日記

    もうそんなものができたんですか…
    インターネットが普及して何年でしたっけ?

    でも人間ひとりが一生の間に閲覧できるデータ量って限られてますからね。
    新しいものはこれからますます出て来るだろうし、昔のことにかまってる余裕はどれだけあるんでしょうか。
    その巨大さゆえにあまり実用的ではない気も。

    まるでネットワークのサルガッソですね。
    一度入ったら出て来れなかったりして(笑)

  • by kyle (3923) on 2001年10月30日 3時50分 (#33861) 日記
    ザナドゥ・プロジェクトをおもいだすなぁ....

    PROJECT XANADU のことだと思われますが……ネタですか? ついでに、テッド・ネルソンのホームページ。SFC? まだ日本にいるんですか?

    # 最近すっかりアカデミックな方面から遠ざかり……

  • ゲホゲホ! テキトーに検索してリンク張ったら大ボケでありました.すんまそん.

    テッドネルソンは96年くらいに札幌に居ました.その頃作ったWEBもアーカイブにあるかもね.
  • by yojun (6304) on 2001年10月30日 1時40分 (#33830)
    確かに瞬間のフリーズですねえ。懐かしい大学時代の自分のページが出てきた。リンク先もあったよ。
  • by tanji (6368) on 2001年10月30日 1時43分 (#33831) ホームページ
    昨日の0100am頃は工事中で見れなかったんですけど、今復活してたんでウチのサイト検索してみました。
    …引っかからなかった(泣

    それは、どうでもいいとして。

    これはすべてのデータを生のまま保存してるんでしょうかねぇ。
    何らかの圧縮ぐらいは掛けてると思うんですけど・・・
    # というかそう願いたい

    収集は…ボットで収集してるんかな?

    昔ネット上のデータをすべて見るのは一生かかっても足りない、とか聞いたけど、ここまでキレイにやられてしまうと何だかなぁ。
    たしかに面白いんだけど。
  • by ill (3048) on 2001年10月30日 1時46分 (#33833)

    /.jpは一つもヒットませんね。

    本家は200以上。YAHOO Japanの場合を見ると、日本のサイトは収録(?)数が少ないのかな。ま、外国のサービスだから必然といえば必然なのか。

    --
    っと・・・。
  • by kyle (3923) on 2001年10月30日 2時06分 (#33839) 日記

    自サイトを CVS 化する以前のコンテンツを紛失して弱っているので、淡い期待を抱いて検索してみたけれど、トップページしかない。どうしてもう一段奥まで持っていってくれなかったかなー。

    今行ってみたところ、今日の昼間には出たそのトップページすら出てこない。まだシステムが不安定なのだろうか。今後に期待。

  • by ijin (5939) on 2001年10月30日 3時05分 (#33852)
    5年前のYahooで検索をかけたら本物のポータルへと飛ばされてしまった。(笑)

    しかし、見た目はあんまり変わってないなぁ。
  • by ijin (5939) on 2001年10月30日 3時11分 (#33853)
    よく見たら8月のに飛ばされてた。(汗) Check mailとかあるから妙だなあとは思ってたけど。 サーバがおかしいのかな。
  • > FreeBSDなんですね

    数ダースのHPのサーバ、ってPA-RISCで動くFreeBSDってないですよね?ただのPCみたいですね。しかもIDEなHDDで300GB(がそれぞれの機械に)ですか…

  • by kawa (6374) on 2001年10月30日 10時00分 (#33923)
    googleのキャッシュでも気になったのですが、こういう、ほかのサイトの内容をコピーして自分のところで公開するようなサービスって、著作権関係で問題になったりしないんでしょうか?
  • ちなみに、速読法を身につけている人が、ADSL1.5MBit/Secでマッハの速度で読むとして、1秒あたり38ページほど読むことが出来ます(おぃ!) ということは、一生で 480億ページほど読めます。予習・復習まで入れてもお釣りが来る量読めますね。
    人間の脳の記憶容量って、一説によると一千兆ビット≒114TBと言われてますから、読むだけは読めても全てを記憶しておけないですね(^^;)
    現状の100億ページ読み終わった時点で、(脳をフル活用したとして)記憶の9割がWebページの内容っていう、いびつな人間が生まれてしまいます(笑)

    # えっ、読むことに意義があるから覚えておく必要はないですか?(^^;)
  • by seldon (5637) on 2001年10月30日 18時51分 (#34123)
    <おふとぴ>
    ペタサイトってそんなにトラブル多いの?
    ウチのお客が「入れようか?」って計画してるみたいだけど...

    # まぁウチから買ってくれる訳じゃないのでど~でもいいと言えばいいんだけど :-)
    </おふとぴ>

  • これが面白いことになるかも

    それはそうと、実際は多分ストレージデバイスが外にあるんではと思います。
    恐らく、単にキャッシュとして使われるHDDが各サーバーに300GBずつ積んであるということだと思います。

    ……と思ったんですが、前レスで触れたFAQ
    The Internet Archive is stored on dozens of slightly modified Hewlett Packard servers.
    とか書いてあるのでやっぱり…
    # こ、怖ぇ…
typodupeerror

開いた括弧は必ず閉じる -- あるプログラマー

読み込み中...