Internet Archive、アーカイブ量が 10 ペタバイトを超える 70
ストーリー by reo
10ぺたーん 部門より
10ぺたーん 部門より
ある Anonymous Coward 曰く、
ネット上のコンテンツをアーカイブしている Internet Archive において、アーカイブしているデータ量が 10 ペタバイト (10,000,000,000,000,000バイト) を超えたという (Internet Archive Blogs の記事より)。
1 TB の HDD 1 万本分と考えると多いのか少ないのかちょっと分からなくなるが、この量のストレージをメンテナンスしていくのは大変そうだ。
どれぐらい故障するのやら (スコア:1)
こんな感じのデータを出して欲しいなあ。
Googleが大量に使用しているHDDの故障率の分析
http://srad.jp/story/07/02/18/2229247/Google%E3%81%8C%E5%A4%A7%E9%87%8... [srad.jp]
Re: (スコア:0)
故障で失われたデータがあるのかどうかも気になるところ
乱数サイト (スコア:1)
えんえんと、πとかeとか載っているサイトって
月替わり、今月の超越数!とか。
#何が言いたい
いずれゴミクズデータを破棄する専門業者が必要そう (スコア:0)
いったい10 ペタバイトのアーカイブの何%が実際に有用なデータなことか
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:3, 興味深い)
テレビ番組の受け売りですが、東京国立近代美術館フィルムセンターの方が「重みづけをせず収集することに意義がある。
後世で重要となるフィルムを収集しそこなうことがあってはならない。」といったことを仰っていました。
Re: (スコア:0)
http://extreme-social-media.com/ [extreme-social-media.com]
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:5, すばらしい洞察)
フィルムセンターの収集している映画って、全然評価されていない映画もあったりするんだよ。
原則として現代の商業映画以前が対象なので、芸術品と評価されているものだけなら、フィルムセンターなどという組織・設備は不要だし。
モノの価値なんてものは、評価するその時代のその人達に依存しているものなので、10年前は駄作と呼ばれていたのに値段が倍になったり、50年経ったら傑作、100年経ったら美術館、博物館に並んだりする。
Re: (スコア:0)
同じテレビ番組で明治大学米沢嘉博記念図書館の紹介をしていた時も同じような趣旨の説明がなされていたので、
こういった学術分野ではよくある手法なのかな、と思って見ていました。
インターネット上のコンテンツは自動収集がかなりのところ可能でしょうから、自動で収集してアーカイブしてしまうという
欲望を抑えきれない人がいてもいいんじゃないかなとは思いますけどね。
Re: (スコア:0)
インターネットのほうが集めて取っておくの楽なんですから、
もっとどんどんやればいいんじゃないですか。
# 誰が等価に考えているんだろうか? ただの一例だと思うけど。
# 等価でなければ話もできないなんてバカな話はないだろうし。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:2)
細かい利用法は後世の人に任すとして、とりあえず「系まるごと」として保存しましょってことなんじゃないの? よく知らないけど。
そこで個々のデータの価値がーーとか気にし出しちゃうと、それこそとてつもなく重要な何かが失われてしまう気がする。よくわかんないけど。
Re: (スコア:0)
まともな研究者ならそれがいかに馬鹿げていることかってのがわかるはずですけど。
たとえば現代人の文化の研究のためとかいって渋谷や新宿の駅前に24時間カメラとマイクを立てて毎日サンプリングした何十年分にも及ぶ映像をそのままアーカイブして後世の役に立つ、なんて真顔で言う研究者なんていませんよ。それがいかに馬鹿げたことかを知っているからです。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:3)
うーーんそんなん言われたら話が終わってしまう…。
まあ続けるおつもりもないのかもしれないけど、せめてどう馬鹿げているのかとか、インターネットアーカイブはどう変わるべきなのかとか、ヒントでもお聞かせ願えれば。
Re: (スコア:0)
渋谷と新宿を24時間365日録画したデータ1000年分が積み上がっていたとして、それを誰が見るんですか?
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
それ、気象学や文化人類学、歴史家あたりからすれば涎が出そうなデータだと思うなあ
他にも犯罪学とか色々活用できそうな
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
その研究者にとっちゃ土以外が必要だろう。
でも地質学者にとっちゃ土が必要だ。
何が必要かなんて、それを見る人が決めること。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:2)
結局「馬鹿げてる」以上のお説は出てこなかったので、ちょっと残念。気まぐれで否定してみたかっただけなのかな。
みなさんも指摘してるとおり、土に価値がないと思ったら大間違いだよ。
それと、インターネットアーカイブはその名のとおり、第一義的にはアーカイブ(保存する場所)であって、ただの展示場だと考えてるんならそれもちょっと違うと思うよ。
Re: (スコア:0, すばらしい洞察)
お前が馬鹿ということは十分にわかった。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
そうじゃなくて、「バ、馬鹿、あなたのために録画したんじゃないんだからねっ!」とやらないとギスギスするじゃないですか。
Re: (スコア:0)
千年前、平安時代か。
平安時代の街角ウォッチングなんて、研究者じゃない一般人ですら相当な需要があると思うぞ。
しかも平安から平成まで数十年ごとに並べて観察できるとか最高じゃないか。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
いないのか?いるけれど、プライバシー面で難しいからやってないだけかと思っていた。
例えば「江戸の城下町の賑わう一角にて、そこで聞こえてきた言葉を何十年もの間ひたすら記してきた紙束」
なんてものが今見つかったら、当時の風土の研究には大いに役立つとは思うけれどね。
Re:いずれゴミクズデータを破棄する専門業者が必要そう (スコア:1)
後世の歴史研究家にはものすごく役に立つんじゃね?
まともな研究者なら、馬鹿げてるどころか望むところだと思うがね。
権利の問題とかプライバシーとかの意味で馬鹿げている、という研究者ならいるかもしれないが。
そもそもにして、何をもって役に立つのか定義しないことには話にならない。
個人レベルで見れば、全体の50%以上は役に立つ情報だと思うしな。
大抵の情報は、世界の誰かしらには役に立つだろうから。
自分主観や狭い視点でしか見れなければ、殆どが無駄と考えてしまうんだろうけど。
自分自身にとって役に立つ、という意味でなら
1%どころか0.0001%もあるかどうか怪しいだろう。
しかし世界全体、更には現在だけではなく何百年何万年先の未来も含め、ついには外宇宙生命体が干渉してくる可能性すら考慮すれば
それこそ逆に無駄な情報の方が少ないのではないだろうか。
何百年先にデータが残ってないなんて言わないように。
消える前にバックアップを繰り返して残していくかもしれないしな。
Re: (スコア:0)
いや、別に役に立つんじゃね?
平安とか鎌倉とかの映像があればおもしろいと思うんだけど?
> それがいかに馬鹿げたことかを知っているからです。
この意見には同意。
自分自身のキャリアには何の役にもたちませんからね。
Re: (スコア:0)
とりあえずあなたの知ってるそういうことを言う研究者の研究分野を明らかにしてください。
Re: (スコア:0)
大学で数学者の先生がいってましたが、
「数学者は好きなことして遊んでいればいい。そのうち物理屋と工学屋さんが実用的なものにしてくれるから」
とか言ってました。
研究って役に立つかどうかだけ考えてするものじゃないと思うんですよね。
そういうのを考えるものももちろんあって、上の人はそういう狭い世界だけを見てきたのかもしれないですが。
1000年経てば落書きも文化財 (スコア:1, すばらしい洞察)
ゴミクズを分別するとかいう発想自体が馬鹿の極み
Re: (スコア:0)
Re:1000年経てば落書きも文化財 (スコア:1)
今その時点・時代でのゴミデータはいらないと言うならそもそもこのアーカイブ行為が無駄だから。
五重塔の落書きとか当時からしたらゴミ、それどころか建設主からしたら犯罪的な行為でしょうけど、
今その歴史的価値に関して、ゴミデータだっていう人居ないですよね?
Re: (スコア:0)
遺跡の中からたった1つ掘り出されるから価値があるのであって、どこの庭でも1m掘り下げれば出てくるようなものなら
誰も見向きもしないんじゃないですか。
Re:1000年経てば落書きも文化財 (スコア:1)
どこの庭からでも出てくるものでも、
時間の経過で失われるのであれば、それは未来において有用。
人間の居住区域の何%分*時間経過の情報があるとしたらとても有用。
>誰も見向きもしないんじゃないですか。
君の想像力、見識が足りないから意味を見いだせないだけ。
Re: (スコア:0)
> どこの庭でも1m掘り下げれば出てくるようなもの
そうじゃないから、InternetArchiveが保存しようとしてるわけで。
どのサーバーでも(サービス提供を終了したものも含む)将来にわたって過去のデータを閲覧できるような仕組みになっていればわざわざ保存しようとしないでしょう。
Re: (スコア:0)
元コメでは「いずれ」とありますから、 現在がどうこうってことじゃないんじゃないすかね?(・_・ )
Re:1000年経てば落書きも文化財 (スコア:2, すばらしい洞察)
千年前の落書きに「ゴミクズを分別するとかいう発想自体が馬鹿の極み」なんて書かれていたらとても興味深いと思わないか。
データに対してわざわざ「文化的に無価値かどうか」判定をする位なら全部保存した方が良いでしょう。
あと、スパムだろうがマルウェアだろうがそこに文化的価値が全く無いとは思えないし、
データの蓄積にあたって重複排除位は当然しているだろう。
Re: (スコア:0)
つまりウンコも瓶詰めして保存したほうがいいということだな。
Re: (スコア:0)
保存コストとのご相談だけれどね。
Re:1000年経てば落書きも文化財 (スコア:2)
解析技術もどんどん向上していきますし。順調に進めば、それこそ、ふとした暇つぶしに「ご先祖様の発言と思われる奴を全部リストアップして時代毎にサマリーを作成」などと高機能なデータマイニングAIに命じてみる、ぐらいできるようになるでしょうし。
Re:1000年経てば落書きも文化財 (スコア:1)
将来、そういったスパムの量の分析などに価値を見出すかもしれないじゃないですか。
#Internet Archiveにはスパムメールは収集されていないと思いますが
Re: (スコア:0)
洞窟の壁に落書きした人も数千年後に貴重がられるとは思わなかったでしょうね。
Re:1000年経てば落書きも文化財 (スコア:1)
江戸時代の町人の日記とか。当時はどこにでもあるただの日常を記しただけの雑記だけど、
数百年後の今となっては貴重な歴史的/文化的な資料だしね。
武士が記した家計簿とか宴会の献立とかもあるんだっけか。
残せるうちはなんでも残せばいいんだよ。
重複しててもいいじゃない。ないよりはある方がいいに決まってる。
後の世に、重複してることに資料的意味を見出す人が出てくるかもしれないし。
Re: (スコア:0)
文化は高尚なモノではないのですよ。
ゴミが多いことに関しては同意なのですが、他者の意図の入ってない生のデーターですよ。
分類や分別が大変でも、それは後の時代の研究者の研究目的に沿ったものでなければならない訳です。
Re: (スコア:0)
1000年前のインタネットに流れているトラフィックの90パーセントはスパムやマルウェアでしたという史実が分かるんだからそれでいいのでは?
Re: (スコア:0)
ポンペイの落書きみたいなのを意図的に残そうという試みなんじゃないの?
歴史を持たない国らしい発想。
Re: (スコア:0)
wayback machine で拾わせてもらったデータもけっこうあるが、
質の優劣で取捨選択する方法論では、人類の 8.3e-9%
つまりわしの価値観に合ったコンテンツは、残ってねェな^^
っとは思う。
Re: (スコア:0)
今は所持しているだけで有罪になるが一昔前はゴロゴロしていたデータなんかどういう扱いなんだろう?
消したくても消せない (スコア:0)
昔作ったお馬鹿なサイトが延々時代順にアーカイブされているのが嫌すぎる。
消せるのか分からないけど、できるとしても、消してもらうには色々手続きが必要なんだろうが、そこまでの英語力もないし。
Re:消したくても消せない (スコア:1)
まだblogなんて言葉もなかった時代、日記を掲示板のスクリプトを改造して
公開していましたが、それらは全然残って無いですね
プロバイダのドメインがor.jpだったから追跡されることもほぼないですね
#うわーもう十五年かよ、歳は取りたくないな
Re: (スコア:0)
問題ないですよ
知っているのはあなただけw
Re: (スコア:0)
urlコピペする程度だけど。
Re:消したくても消せない (スコア:2, 参考になる)
世の中にはAppStoreやGoogle Playには飽きたらず、Windowsストアでもデフォルトでは日本語アプリしか検索できないようになってるのにわざわざ英語アプリを探しだしてきて「英語だから」というだけの理由で★1つをつける想像を絶するバカがいるんですよ。
その情熱を少しでも英語の学習に向けたらいいのに。
そろそろ、それらしい名前をつけよう (スコア:0)
「Internet Archive」じゃそのまますぎて味気ない。
ヒトの偉大さも愚かさもすべて記録して後世に残すこれを、
ヒトモニュメント計k(ry
データ収集のタイミング (スコア:0)
データ収集のタイミングってどう決めてるんだろう。
数年飛んでたりしてて、この時期のが欲しかったのに、ってことがあった。
#あと恥ずかしいデータを削除して欲しかったらどうしたらいいの?
#私のじゃないですよ。