100億ページ100TBのWebアーカイブ 25
ストーリー by koyhoge
大きいことはいいことだ? 部門より
大きいことはいいことだ? 部門より
takusi 曰く,"Impressの記事によるとインターネットのライブラリを作ることを目指しているInternet Archiveが、過去のWebページを保存した「Wayback Machine」を公開したとのこと。1996年からの100億ページのWebページが保管されており、これらを検索したり閲覧することができるとある。"
このネタは/.J読者の琴線に触れたらしく、複数のタレコミをいただいた。Fizz 曰く,"現在100TByte,毎月10TByteずつデータが増加しているそうですが... いったいどんな記憶装置を使っているのでしょう?故障率が低くても台数が多ければ馬鹿になりません。というか、普通のハードディスクで賄えるのでしょうか? ここはぜひ日経コンピュータに取材していただかなくては。題名は 『(こんな規模でも)動くコンピュータ』"、 bangchoo 曰く,"でも,こゆ風にある時点でのインターネット全体をスパッとアーカイブ化するって面白れーよな.世界をそのままフリーズドライしたみたい,パラダイムがビミョーに歪むカンジ.後日思いもよらない犯罪操作とかに役立ったりして...." 等々、さまざまな感想が寄せられている。
集めるのも大変なことだが、そこから有用な情報を抽出するのはさらに大変なことのように思う。全部で100億ページもあれば、一回も参照されないページもかなりの割合であるのだろうなぁ。
他のアーカイブプロジェクト (スコア:4, すばらしい洞察)
興味深い (スコア:3, おもしろおかしい)
アーカイブの資料的価値云々よりも,上にも書いたように,「ある瞬間のネットをそのままフリーズさせてある」ところがコンセプチュアルでカッチョいい!
想い出のアルバムをめくっているみたい.今いろいろ検索して遊んでるトコロです.
一生で見られるデータ総量って (スコア:3, すばらしい洞察)
どんな時代を自分たちが生きてきたかの指標にはなりますよね。こういうアーカイブ系のサイトというのは。
ところで、アーカイブするのはいいんですが、一生かけてどこまで見られるんでしょう。人の一生を80年として、80x365=29200日、半分は寝ているとしても 29200x12=350400時間あるわけです。新聞を隅から隅まで見るのに1時間かかるとして、そのデータ量は30万字=30x10000x1.5Bytes=450KBytesほどです。1ページの情報量が仮に5KBytes程度とすれば、1時間で90ページ見られます。すなわち、一生かけて3千万ページほどです。とてもじゃないが100億には届きませんな。
ちなみに、速読法を身につけている人が、ADSL1.5MBit/Secでマッハの速度で読むとして、1秒あたり38ページほど読むことが出来ます(おぃ!) ということは、一生で 480億ページほど読めます。予習・復習まで入れてもお釣りが来る量読めますね。
これって・・・ (スコア:2)
書き忘れ (スコア:2, 興味深い)
保存方法 (スコア:2)
個人的なヨミだと、SONYのペタサイトあたりじゃないかと思います。実は以前ペタサイト使っていたんですよ・・・よくトラぶってましたけど。
ペタサイトの最大容量は11.2PBです。
データの墓場 (スコア:2, おもしろおかしい)
もうそんなものができたんですか…
インターネットが普及して何年でしたっけ?
でも人間ひとりが一生の間に閲覧できるデータ量って限られてますからね。
新しいものはこれからますます出て来るだろうし、昔のことにかまってる余裕はどれだけあるんでしょうか。
その巨大さゆえにあまり実用的ではない気も。
まるでネットワークのサルガッソですね。
一度入ったら出て来れなかったりして(笑)
Project Xanadu のサイト (スコア:2, 参考になる)
PROJECT XANADU のことだと思われますが……ネタですか? ついでに、テッド・ネルソンのホームページ。SFC? まだ日本にいるんですか?
# 最近すっかりアカデミックな方面から遠ざかり……
Re:Project Xanadu のサイト (スコア:2)
テッドネルソンは96年くらいに札幌に居ました.その頃作ったWEBもアーカイブにあるかもね.
Re:興味深い (スコア:1)
コレって (スコア:1)
…引っかからなかった(泣
それは、どうでもいいとして。
これはすべてのデータを生のまま保存してるんでしょうかねぇ。
何らかの圧縮ぐらいは掛けてると思うんですけど・・・
# というかそう願いたい
収集は…ボットで収集してるんかな?
昔ネット上のデータをすべて見るのは一生かかっても足りない、とか聞いたけど、ここまでキレイにやられてしまうと何だかなぁ。
たしかに面白いんだけど。
ちなみに。 (スコア:1)
/.jpは一つもヒットませんね。
本家は200以上。YAHOO Japanの場合を見ると、日本のサイトは収録(?)数が少ないのかな。ま、外国のサービスだから必然といえば必然なのか。
っと・・・。
浅くないか? (スコア:1)
自サイトを CVS 化する以前のコンテンツを紛失して弱っているので、淡い期待を抱いて検索してみたけれど、トップページしかない。どうしてもう一段奥まで持っていってくれなかったかなー。
今行ってみたところ、今日の昼間には出たそのトップページすら出てこない。まだシステムが不安定なのだろうか。今後に期待。
Re:興味深い (スコア:1)
しかし、見た目はあんまり変わってないなぁ。
Re:興味深い (スコア:1)
やっぱり警告なく壊れるんだろう(Re:書き忘れ) (スコア:1)
数ダースのHPのサーバ、ってPA-RISCで動くFreeBSDってないですよね?ただのPCみたいですね。しかもIDEなHDDで300GB(がそれぞれの機械に)ですか…
著作権 (スコア:1)
言い方変えて (スコア:1)
アーカイブとか呼ばずに
伝送遅延装置とか呼んでみる(をぃ)
uxi
Re:言い方変えて (スコア:1)
Re:著作権 (スコア:0)
Re:一生で見られるデータ総量って (スコア:1)
現状の100億ページ読み終わった時点で、(脳をフル活用したとして)記憶の9割がWebページの内容っていう、いびつな人間が生まれてしまいます(笑)
# えっ、読むことに意義があるから覚えておく必要はないですか?(^^;)
Re:保存方法 (スコア:1)
ペタサイトってそんなにトラブル多いの?
ウチのお客が「入れようか?」って計画してるみたいだけど...
# まぁウチから買ってくれる訳じゃないのでど~でもいいと言えばいいんだけど :-)
</おふとぴ>
Re:保存方法おふとぴ (スコア:2)
当時(5年くらい昔)は、トラぶってましたよ。
Re:保存方法おふとぴ (スコア:1)
ありがとうございます。
もしそのHDDがIBM製だったら (スコア:1)
それはそうと、実際は多分ストレージデバイスが外にあるんではと思います。
恐らく、単にキャッシュとして使われるHDDが各サーバーに300GBずつ積んであるということだと思います。
……と思ったんですが、前レスで触れたFAQに
とか書いてあるのでやっぱり…
# こ、怖ぇ…