Googleキャッシュで鳥取県個人情報流出の2次被害

Googleキャッシュで鳥取県個人情報流出の2次被害 122

ストーリー by Oliver 2003年08月11日 16時44分
一度でたらもう引っ込まない部門より

jbeef曰く、"毎日新聞DIGITALトゥデイに8月8日付で「鳥取県HPから個人情報が“2次流出”」という記事が出ている。これは、8月1日の新聞報道「鳥取県HPから個人情報流出、最長9カ月間」（朝日新聞の同事件の記事）の続報のようだ。1日の事件では、県行事「全国創作和人形コンクール」の応募者89人の住所や電話番号を誤ってWebで公開していたのを「２ちゃんねる」掲示板で指摘されて、削除したというもの。しかし、報道発表後も、Googleキャッシュで閲覧可能な状態が続き、5日夜に削除されたという。県広報課は、

外部からの指摘もあり1日の時点で検索サイトの運営者に削除依頼を出した。[...]
個人情報が流出してしまった後の対応については、マニュアルなどはなく、手探りでの対応で、検索サイトにまで思い至らなかった

と説明しているそうだ。いろいろ突っ込みどころのある事件だ。まず第1に、1日に削除依頼を出したのに5日まで削除されないというGoogleの体制はどうなのか。第2に、個人情報を誤って公開しかねない業務に携わる者の全員が、Googleキャッシュの存在を知っていなくてはならないのか。第3に、そもそもGoogleのそれは、技術的に「キャッシュ」ではなく「ミラー」と呼ぶべきものではないのか、など。"

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索122コメント Log In/Create an Account

InternetArchiveは？ (スコア:4, 興味深い)

by marl (12874) on 2003年08月11日 17時11分 (#376860)

> 検索サイトにまで思い至らなかった

InternetArchive [archive.org]の対応はどうなっているのでしょう。
こっちも残っている可能性があるのでは。

> 第2に、個人情報を誤って公開しかねない業務に携わる者の全員が、
> Googleキャッシュの存在を知っていなくてはならないのか。

平成国立インターネット図書館 [srad.jp]なるものもそのうちできるらしいですし、
そういったものを全て把握するなんて不可能でしょう。
同ストーリーで#366598のAC氏 [srad.jp]が危惧していた
「うっかり個人情報が漏れてたらそれも保存されちゃう」
が本当に起こってしまいましたね。
- - Re:InternetArchiveは？ (スコア:1)
    
    by TomTNG (9459) on 2003年08月12日 11時53分 (#377302)
    
    キャッシュサイトからキャッシュ情報を引き出すためには
    パラメタを与えるとか、他所からのリンクを拾うとか
    しないといけないので、永遠に生き残るのは難しそうですね。
    
    どちらにせよ、キャッシュが更新されるように、
    流出ファイルと同名のファイルを流出時のパスに
    置くのは対処法として必要ですね。
    
    シェア
    
    親コメント
本質 (スコア:3, 参考になる)

by Anonymous Coward on 2003年08月11日 18時22分 (#376899)

＞応募者89人の住所や電話番号を誤ってWebで公開していた

いったん流出した情報を制御することはできないのだから、
個人情報のようなものの一次流出こそが対処すべき防問題だと
本質であると教えてやってください。

目立ったとしても、Google や Web Archive 経由の流出は
派生事例に過ぎないのだし。robot 除けなんざあっさり
無視する躾のなってない覗き屋を飼ってるところもあるしね。
- Re:本質 (スコア:1)
  
  by kiyotan (3912) on 2003年08月11日 19時17分 (#376952) 日記
  
  どんな形で流出したのか、よくわからんのですね。
  とりあえず、「内部向け」と称するものを
  外部に公開してるサイトに置いた時点で敗北なんだろうなぁ。
  
  ＃記事を鵜呑みにすると、該当ページを作った人は
  ＃できた結果を自分の端末で表示して確認ってことを
  ＃やってないんだろうか？と思ってしまう。
  ＃「掲載」の意味が微妙ですが．．．
  
  --
  Kiyotan
  
  シェア
  
  親コメント
- - Re:やつらは (スコア:0)
    
    by Anonymous Coward
    
    そんなだから取鳥 [chakuriki.net]とか書かれちゃうのだ。
ビジネスの予感 (スコア:3, すばらしい洞察)

by mizuho (7378) on 2003年08月11日 20時50分 (#377003)

任意のサイトをキャッシュするエンジンが複数個存在する以上、
素人にはこういった問題に対処するのが難しいと思われます。

そこで、この問題を解決するビジネスってのもアリかも。
問題が発生した際、片っ端からキャッシュされた内容を
削除してもらうようお願いして周るというお仕事。

著作権の問題は今後のwebでも依然問題となるだろうから、
そこそこ稼げるかもね。
- Re:ビジネスの予感 (スコア:1)
  
  by kenfujita (13209) on 2003年08月11日 21時33分 (#377028) ホームページ日記
  
  ここ [ippatsu.net]の逆ってことか。
  
  シェア
  
  親コメント
キャッシュ抹消の最善手 (スコア:2, 参考になる)

by tsuya (14020) on 2003年08月11日 17時03分 (#376851) 日記

いけない情報を公開してしまっていた管理者は、単なる削除じゃなくて、別のファイルを置いておいて、そちらへのキャッシュの変更が一刻も早く行われるのを待つのが正解、ということでしょうかね。もちろん、Googleへの削除依頼も合わせて行うべきでしょうが。

ところで、Googleのようなキャッシュサイトって他にないのかな？
- Re:キャッシュ抹消の最善手 (スコア:2, すばらしい洞察)
  
  by Anonymous Coward on 2003年08月11日 17時55分 (#376884)
  
  世の中にはgoogle以外にキャッシュやアーカイブしてくれるところが
  幾つも有りますし、今後増えないという保証はありませんので
  robots.txt やその他アクセスコントロールを一通り準備しておいて
  その上でコンテンツを乗せていくというのを
  とりあえずおまじない的手順にしてしまえば、
  うっかり漏洩事故があったとしてもそれがキャッシュされてしまう
  二次災害までは防げるように思えます。
  
  個々のアーカイバーの存在を気にするのではなく、
  アーカイバーは沢山あるけど robots.txt でまとめてコントロールできる
  という考えになれば各地のサイトの動向を気にする必要はないでしょう。
  
  シェア
  
  親コメント
  - Re:キャッシュ抹消の最善手 (スコア:0)
    
    by Anonymous Coward
    
    robots.txt無視する検索ボットも多いですよね…
    某台湾のGaisbotとか。
    そうなるとこれじゃ防げないな。
- ダウト (スコア:1, 参考になる)
  
  by Anonymous Coward on 2003年08月11日 17時24分 (#376863)
  
  googlebot のクローリングは月１くらいが多いのです. ２～３日毎に廻ってくるようなら、それは更新頻度の高い人気サイトの証
  
  シェア
  
  親コメント
  - Re:ダウト (スコア:1, 参考になる)
    
    by Anonymous Coward on 2003年08月11日 17時50分 (#376881)
    
    一応、手動でクローリング先登録をしとけば１～２日で更新されるようです
    
    前に爆弾ヲタが「家庭用品で作る爆発物」だかって厨サイトを掲示板spam行為で宣伝しまくりしていて、間髪入れずにサイト閉鎖に追い込んだ後に、グーグルキャッシュを宣伝しまくりを始めたので追加攻撃でクローリング先登録をしたらソレ位で消えてましたから…
    
    別の理由で消えたのかもしれないけど…
    
    シェア
    
    親コメント
    - Re:ダウト (スコア:0)
      
      by Anonymous Coward
      
      何と書いてあるのか判らないのですが。(主語が無いせい？) 元ACさんか意味が判る方、詳しいご解説をお願いします。
      - Re:ダウト (スコア:1, おもしろおかしい)
        
        by Anonymous Coward on 2003年08月11日 18時27分 (#376908)
        
        じゃ、私が読みとれた内容を追加して、書いてみます、
        
        (Gooleについてですが、)一応、(だれかが)手動でクローリング先登録をしとけば１～２日で(キャッシュが)更新されるようです
        　
        (実例として、)前に
        ・爆弾ヲタが(作った)「家庭用品で作る爆発物」だかって厨サイトを　(だれかが、)(色々な?)掲示板(に)(削除：spam行為で)宣伝(を)しまく(s/りして/って/)いた
        ・(その宣伝をみた私が)(サーバ管理者に連絡して)間髪入れずに(その)サイト(を)閉鎖に追い込んだ
        ・(宣伝していただれかは)グーグルキャッシュ(s/を/の/)宣伝しまくりを始めた
        ・追加攻撃で(私がGoogleの)クローリング先(としてそのページの)登録をしたらソレ位(１～２日)で((404 Not Foundを検出して)googleキャッシュから)消えてました
        から…
        
        シェア
        
        親コメント
  - Re:ダウト (スコア:1, 参考になる)
    
    by Anonymous Coward on 2003年08月11日 18時12分 (#376893)
    
    うち、そんなに人気が高くない（ページランクが低い：バーが半分くらい）個人サイトですが、ほとんど毎日来ます＞Googlebot
    概ね翌日から翌々日にはキャッシュと検索結果に反映されます。時々１週間とかかかりますけど..。どういうアルゴリズムでぐるぐる回って更新しているんだろう。
    Googleを検索していると「速報」登録とじっくり計算してから登録する「確定」登録があるようだ、というところまではわかっているのですが。
    
    シェア
    
    親コメント
    - Re:ダウト（オフトピ） (スコア:1)
      
      by soan (10813) on 2003年08月12日 3時02分 (#377154)
      
      > そんなに人気が高くない（ページランクが低い：バーが半分くらい）個人サイトですが
      個人サイトでバーが半分もいってるなら
      かなりの人気サイトだと思います。
      
      シェア
      
      親コメント
    - Re:ダウト (スコア:1)
      
      by u1p (2709) on 2003年08月12日 15時56分 (#377436) 日記
      
      何と言うサイトか気になって眠れません。
      
      --
      日本ではお盆休みですかそうですか@赤道近辺
      
      シェア
      
      親コメント
１日から５日までの推移 (スコア:2, すばらしい洞察)

by Anonymous Coward on 2003年08月11日 17時10分 (#376858)

２日と３日が土日という事も考慮して、県の担当者が１日の何時頃要望をGoogleのどの窓口に出し、間にどの程度のやり取りがあって最終的に５日の何時頃対策されたのか知りたい。常識で考えてもmailで「このページを消してね」というだけでは(mail address詐称などを考慮すると) Google側も本当に抹消すべきか判断出来かねるだろうし。
Googleからの問い合わせで県の担当者が外出中で連絡が取れなかったなんて話だとまた別の問題を考えなきゃならんだろう。
- Re:１日から５日までの推移 (スコア:2, 参考になる)
  
  by Anonymous Coward on 2003年08月11日 17時14分 (#376861)
  
  Googleのページの削除 [google.co.jp]の通りにやれば、すぐに対応してくれると思うし、これまではすぐに対応していたように記憶している。新聞報道を見た限り、Google側の対応が遅れたという記載はないようなのですけど。
  
  シェア
  
  親コメント
- Re:１日から５日までの推移 (スコア:1)
  
  by marl (12874) on 2003年08月11日 17時30分 (#376866)
  
  記事を読んでみたけど、
  
  > 県行事の応募者分については、外部からの指摘もあり
  > 1日の時点で検索サイトの運営者に削除依頼を出した
  
  でいったん文が切れていて、
  
  > 韓国人訪日団員分については「検索サイトでの掲載を全く知らなかった
  
  というふうに文が続いているから、
  ・応募者分は1日に削除依頼を送った　→　すぐ削除された
  ・韓国人訪日団員分は5日夜に削除依頼を送った　→　すぐ削除された
  なのではないでしょうか。
  
  シェア
  
  親コメント
  - Re:１日から５日までの推移 (スコア:1)
    
    by NyaNya (12681) on 2003年08月11日 17時58分 (#376886) 日記
    
    ただ、その直前の段落に、
    県は、ホームページ上からこれらの情報を削除し、1日に発表した。しかし、大手検索サイト「Google」には、過去のホームページの内容を保存、表示する機能があったため、いずれの個人情報も公開されている状態が続き、5日夜の県側の処置で削除された。
    と、わざわざ「いずれの個人情報も」と書いてあります。
    これを素直に読むと、両方の情報が5日夜まで見えたようにも感じます。
    
    ＃ま、わたしはmarlさんの意見に賛成なんですが
    ＃すぐに削除されたかどうかは別として
    
    シェア
    
    親コメント
下記の検索エンジンで再検索できます (スコア:1, おもしろおかしい)

by Anonymous Coward on 2003年08月11日 18時15分 (#376896)

個人情報が流出してしまった後の対応については、マニュアルなどはなく、手探りでの対応で、検索サイトにまで思い至らなかった
これ [tottori.jp]は何ですか？
- Re:下記の検索エンジンで再検索できます (スコア:0)
  
  by Anonymous Coward
  
  やるなあ。「とりネット」かあ。
  Google も選択肢に入ってるやんねえ。
robots.txtが・・・ (スコア:1)

by s_mkk (14567) on 2003年08月11日 18時30分 (#376910) 日記

>技術的に「キャッシュ」ではなく「ミラー」と呼ぶべきものではないのか

技術的にはINDEXING(INDEX)だと思うのですが、
索引を作る過程でデーターを「キャッシュ」してしまう。

もしrobots.txtが禁止制でなく許可制であれば今回の様な事は
起きないのではないでしょうか。
たとえば、
Disallow: /
ではなく
Allow: /
のような事です。
またrobots.txtが存在しない際の挙動が禁止制であれば。

とは言ってもあくまで紳士協定の域をでないのも問題ですかね
- Re:robots.txtが・・・ (スコア:1, 参考になる)
  
  by Anonymous Coward on 2003年08月11日 20時23分 (#376989)
  
  >もしrobots.txtが禁止制でなく許可制であれば今回の様な事は
  >起きないのではないでしょうか。
  つまり許可したやつ以外はくるな、と。
  それってリンクするのに許可がいるのかという（以下フレームの源）。
  
  そもそもどれだけの人がrobots.txtを知っているのでしょうか。
  /.Jを見る人は知ってるでしょうが、今や子供や老人もページを持つ時代ですからね。
  だから仮に許可制にしたら、引っかかるのがほとんどがエロページになったり。
  
  >とは言ってもあくまで紳士協定の域をでないのも問題ですかね
  そもそも普通のユーザアクセスとボットの巡回とを紳士協定以外で
  見分ける方法はないでしょ？
  
  シェア
  
  親コメント
- - Re:robots.txtが・・・ (スコア:1)
    
    by hir_000 (2322) on 2003年08月12日 9時07分 (#377218) 日記
    
    『技術的に』と前置きされているし、
    メタファーとして読むのが適切だと思いますが。
    
    専門うんぬんより、google自身が問題の機能を「キャッシュ」と
    呼んでいることへの疑問でしょう。
    
    ＃言葉遊びだというツッコミはありかも。
    
    シェア
    
    親コメント
次は (スコア:1)

by mgx_devil (17128) <{mgx_devil} {at} {yahoo.co.jp}> on 2003年08月11日 18時30分 (#376911) ホームページ日記

住基ネットですか?
googleに対する批判 (スコア:1)

by paranoiautopian (7851) on 2003年08月11日 18時49分 (#376927) ホームページ

…はまだ無いみたいですね。みんな日頃お世話になってるから？
こうした個人情報流出なんて事件はこれからも続くでしょうし、
キャッシュの消去はその都度必要になるでしょうから、これから
そうした時、googleには素早い対応を求めたいですね。

「あったものをキャッシュしただけでgoogleは悪くないじゃん」
と言う意見は間違ってないと思いますけど、そこは一企業の誠意
として。
- Re:googleに対する批判 (スコア:3, 参考になる)
  
  by Anonymous Coward on 2003年08月11日 20時07分 (#376984)
  
  googleキャッシュと称されるミラーファイルの無断公開は著作権侵害だ、
  という視点に立てばgoogleがそもそも悪いという議論だってあり得ますわな。
  (検索エンジンのキャッシュは著作権侵害か? [srad.jp]
  |GoogleがDMCA的削除要求を公開 [srad.jp]
  |Wayback Machineが著作権関連でトラブル [srad.jp])
  私としても日頃お世話になってるんであんまり考えたくないことだが、
  キャッシュ削除依頼を重ねるよりもむしろ著作人格権侵害で民事裁判
  起こしてgoogleから金を取ろうと本気で考える輩が出る可能性はあるかも。
  
  シェア
  
  親コメント
  - デフォルトキャッシュ許可 (スコア:1, 参考になる)
    
    by Anonymous Coward on 2003年08月11日 20時52分 (#377005)
    
    キャッシュを望まないならrobots.txtで制御せよ、で良いでしょう。
    robots.txtは1995年頃から既に仕様が安定し、 webサイトを運営する者にとっては常識的な話になっていましたので、その後からwebサイトの運営を始める者は「郷に入っては郷に従え」になることでしょう。元々のworld-wide webの精神から考えると、「拒否を明記しない限りデフォルトキャッシュ許可」というgoogleの方針は技術的にも歴史的にも根拠があるように思えます。
    
    シェア
    
    親コメント
    - - Re:デフォルトキャッシュ許可 (スコア:1, 興味深い)
        
        by Anonymous Coward on 2003年08月11日 23時58分 (#377084)
        
        リンクの件もそうですが、WWWで公開する以上、
        キャッシュされようが引用されようが仕方ないと思うべきでしょう。
        
        著作権者にはWWWで公開しない、という選択肢があったはずです。
        
        シェア
        
        親コメント
      - Re:デフォルトキャッシュ許可 (スコア:1, すばらしい洞察)
        
        by Anonymous Coward on 2003年08月12日 0時42分 (#377107)
        
        > 法的根拠がないと裁判じゃ不利なのでは？
        > WWWの精神が認めているからって著作権を侵害していいという話にはならないと思いますが。
        
        そのようなWWWにrobots.txtなどの制限なしで公開している時点で
        著作権者は各地のロボットにキャッシュされることを了承したと
        みなされるでしょう。
        キャッシュによって著作権を侵害されたくないと考えるならば
        最初からWWW上に公開しないか、公開するとしても
        なんらかの制限をつけておくべきです。
        その点について具体的に明言された法律はまだありませんが、
        WWW上における既存の風習は重要です。
        法があれば法、なければ風習です。
        
        GoogleやarchiveサイトやGoogleを目標にして似たような機能にしている
        他の検索エンジンが複数すでに存在している場所であり
        制限を付けずに公開すればキャッシュされてしまうのは既に事実であり
        変えようがありません。
        それらのエンジンの存在はあちこちの国に分散しており、
        日本の法によって規制をかけることも不可能です。
        WWWというのは
        制限を付けずに公開したらロボットにキャッシュされてしまうような場所
        であり、それが前提になっています。
        そのような場所に自分の著作物を公開するかどうかの判断は著作権者の責任です。
        
        > 法的根拠がないと裁判じゃ不利なのでは？
        
        日本の著作物を台湾の検索エンジンがキャッシュしたとき
        どこの国の法律を根拠にどこの国の法廷で争いますか？
        いくらでも簡単に国境を超える問題ですので
        確実な法的根拠を用意するのは困難ということになります。
        そういうときは
        WWW上の風習や歴史、HTTPというプロトコルの仕様書に記載されている内容など
        全世界で共通として扱われる事実を基に妥当な判断を探ることになるでしょう。
        
        シェア
        
        親コメント
        
        万国著作権条約およびベルヌ条約 (スコア:2, 参考になる)
        
        by at_it (3191) on 2003年08月12日 4時45分 (#377169)
        
        ＞日本の著作物を台湾の検索エンジンがキャッシュしたとき
        ＞どこの国の法律を根拠にどこの国の法廷で争いますか？
        
        万国著作権条約および(または)ベルヌ条約でしょう。
        台湾は締結「国」に入れてもらえないため、考慮外ですが、ここの議論でそんな例外を持ち出されても困る。
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1, 興味深い)
        
        by Anonymous Coward on 2003年08月12日 1時50分 (#377133)
        
        >WWWというのは制限を付けずに公開したらロボットにキャッシュされてしまうような場所であり、それが前提になっています。
        
        WWWが成立した時にはrobots.txtなんてなかったんでは？
        検索ロボットは前提ではなく、後から(それまでの風習を無視して)定着してしまったものだと思いますが。
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by yasudas (5610) on 2003年08月12日 8時13分 (#377204) 日記
        
        >検索ロボットは前提ではなく、後から(それまでの風習を無視して)定着してしまったものだと思いますが。
        
        前提なのは検索ロボットではなくて、ましてや風習でもないのでは？前提にあるのは、
        それまでの「キャッシュができてしまう」というシステムに載っているという事実で
        はないかな？
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by yasudas (5610) on 2003年08月12日 21時56分 (#377678) 日記
        
        >できるできないの話ではないと思います。
        
        出来なければ、これは問題になってないでしょうね。
        出来るというか、当然あるという事実についての話題
        です。また、
        コピーと似た概念だけど、キャッシュは異なった用法
        についての記述でしょうからね。話題としての
        
        >コピーができてしまうCD-ROM（CD/Rへ）とかコピーができてしまう本とかコピーができてしまう地図とか(以下略
        
        は、論旨がわかっていないのではないかな？と思いますよ。
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by yasudas (5610) on 2003年08月12日 22時01分 (#377680) 日記
        
        >可能性を全て前提とすると無理がありすぎます。
        
        可能性を前提としているわけではないでしょうね。
        むしろ、そうあるという事実が話題になっていると
        いうことなんですよ。
        
        >実は検索エンジンは許可制の方が良いかな？とか思うこの頃。
        
        検索エンジンではなくて、ウェブページ登録の許可制が
        よろしいのでは？元をただせば、他人様の情報を載せる
        というトンマが招いたことですよね。
        
        >が、googleに捕まると…シャレでは済まないでしょ。
        
        googleではなくて、元を発表しちまったということの問題。
        情報の提示で共有可能な状態にしたという落ち度が問題で
        あって、共有情報を維持することに問題はないということ
        なんですけどね。つまりは、元をたださないと、被害はな
        くならないということ。出来るだけ根本部分で問題を抑制
        しないといけません。発生してからのことをどうこういっ
        て、有意なものを制限しておこう...というのは、ある面の
        本末転倒ではないですかね？
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by yasudas (5610) on 2003年08月15日 1時01分 (#379220) 日記
        
        >でもgoogleって単なる営利企業で、その活動は単なる営利活動に過ぎません。
        
        つまり、営利企業だとまずくて非営利だとまずくなくなるって
        ことですか？
        
        >もちろん、googleがボランティアで尚且つ、そういう業務を行う事を公的に規定・承認されたものであるのであれば事情はあるでしょうが、現実にはそうではないですからね。
        
        ほぉ？つまり、「その活動自体が他人に危害を加える（被害を広
        げる）のであれば、それはきちんと考えなければならない事」を
        ボランティアであり公的に承認されたら、やってもよいというこ
        と？そんなことの前に、その事柄の良し悪しが問題なんですよ。
        
        論旨がめちゃくちゃですよ。よいことなのか？当然の帰結である
        ことなのか？ということが大事であって、ボランティアかどうか
        で良し悪しが変化するというのは、考え方としてむちゃくちゃで
        す。営利のためにやったことでも良いことは良いこと、非営利やっ
        たとしても悪事は悪事ですよ。
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by chanbaba (13080) on 2003年08月12日 7時09分 (#377186) ホームページ
        
        robots.txtはロボットのコントロールであって、キャッシュのコントロールではないのでは？
        そもそもミラーであってキャッシュじゃないような。
        
        ついでに、本人の意思によって公開された著作物は引用出来ます。
        
        >最初からWWW上に公開しないか、公開するとしても
        >なんらかの制限をつけておくべきです。
        
        今回のって設定ミスで漏れたんじゃないの？
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1, すばらしい洞察)
        
        by Anonymous Coward on 2003年08月12日 10時38分 (#377260)
        
        > robots.txtはロボットのコントロールであって、キャッシュのコントロ
        > ールではないのでは？
        > そもそもミラーであってキャッシュじゃないような。
        
        もしミラーリングならは逆方向のデータ移動も当たり前のように成功します。
        元のページがphpで記述されているならば、計算結果のHTMLではなく
        元のphpのソースを転送することになるし、
        画像や動画などのファイルも全てコピーされます。
        しかしgoogleの場合、出力結果のHTMLだけがキャッシュされており、
        元のデータまるごと転送しているわけでもなく、
        また双方向のデータ転送は事実上不可能です。
        googleのキャッシュを表示すると「これはキャッシュです」のヘッダー
        が付加されているためそれを使って元に戻すことができません。
        またgoogleのキャッシュはHTML以外のバイナリーの多くはキャッシュされません。
        これらのことから、googleのキャッシュは
        ミラーの特性をほとんど持っていないことが伺えます。
        
        "robots.txt" によってgoogleのロボットの動作をコントロール
        することが可能ですが、その際
        「googleがキャッシュするかどうか」のコントロールも可能ですので:
        
        > robots.txtはロボットのコントロールであって、キャッシュのコントロ
        > ールではないのでは？
        
        キャッシュのコントロールといえばそうだともいえます。
        ただしRFC2616に記載されているようなコントロールとは別の話になります。
        
        > ついでに、本人の意思によって公開された著作物は引用出来ます。
        
        本人って誰？
        通常、「本人」が出てくるときは、その文面の前に
        その人物が如何なる人物かが判明してますよね。
        「本人の意思によって「公開された著作物は」引用出来ます。」
        「「本人の意思によって公開された著作物」は引用出来ます。」
        いろんな解釈ができるし、いずれの解釈であっても不明瞭。
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by chanbaba (13080) on 2003年08月12日 19時42分 (#377581) ホームページ
        
        >もしミラーリングならは逆方向のデータ移動も当たり前のように成功します。
        >元のページがphpで記述されているならば、計算結果のHTMLではなく
        >元のphpのソースを転送することになるし、
        >画像や動画などのファイルも全てコピーされます。
        
        それ、RAIDとかのファイルシステムのミラーリングでしょ。
        鏡で反射された光を弄ると映された物が変わるなんて事は無いけど。
        httpとかの層での話は、「プログラムのソースを転送しないからミラーではない」と言いたいのですか？
        そもそも、鏡には左右反対に映るんだけど...そう言う話じゃないか。
        
        >しかしgoogleの場合、出力結果のHTMLだけがキャッシュされており、
        >元のデータまるごと転送しているわけでもなく、
        >また双方向のデータ転送は事実上不可能です。
        
        httpって1個ずつ独立してますけど....
        と言うか、「出力結果のHTMLだけ」すらサイト内全部保存されていないけど。
        
        >googleのキャッシュを表示すると「これはキャッシュです」のヘッダー
        >が付加されているためそれを使って元に戻すことができません。
        >またgoogleのキャッシュはHTML以外のバイナリーの多くはキャッシュされません。
        >これらのことから、googleのキャッシュは
        >ミラーの特性をほとんど持っていないことが伺えます。
        
        ミラーの特性って、本来、双方向ではなく一方向なのでは？
        ついでに、俺のトップページのgoogleのキャッシュはHTMLヘッダーの前に追加されているだけだから、簡単に取ることが出来るような気がします。
        「元に戻すことができません」とかって、何を根拠に言っているのかいまいち分かりません。
        
        >キャッシュのコントロールといえばそうだともいえます。
        >ただしRFC2616に記載されているようなコントロールとは別の話になります。
        
        ガーーン、別の話を添付してくれないのか....
        論拠が全然伝わってこないです。
        
        俺のサイトは「cache-control: must-revalidate, max-age=0」とコントロール指示しているけど、確認せずにキャッシュを使って良いとか色々指示できますよね。
        IEの5.5や6は認識するし。
        
        >本人って誰？
        >通常、「本人」が出てくるときは、その文面の前に
        >その人物が如何なる人物かが判明してますよね。
        
        「本人」って公表権とかの話。
        
        >「本人の意思によって「公開された著作物は」引用出来ます。」
        >「「本人の意思によって公開された著作物」は引用出来ます。」
        >いろんな解釈ができるし、いずれの解釈であっても不明瞭。
        
        上の2つって殆ど違わないのでは？
        意味が違うのって「よって」の後で切った場合でしょ。
        まぁ、この話は本題とは関係ないからどうでも良いんだけど。
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by chanbaba (13080) on 2003年08月14日 23時27分 (#379149) ホームページ
        
        >大抵のミラーサイトというのは、
        >まるで鏡に映ったように、同じ姿や機能を見せてくれます。
        >従来からミラーサイトと呼ばれているサイトの多くがそういう状態であることを前提に、
        >Googleがそれと違っている
        >(見た目も違うし、存在しているデータをまるごとコピーしているわけでもない)、
        >だからミラーとして機能を果たしていないのだという論理展開です。
        
        「大抵のミラーサイト」に限定した話ですか。
        一部のミラーサイトは、ミラーサイト側はミラーだと一目で分かるように書かれていますよね。
        そういったサイトの存在は無視しての、私の主張の否定ですね。
        鏡に映るのは左右反対だということもご存知のはずです。
        
        >「世間一般に存在しているミラーサイトの多くに要求される機能を、
        >Googleのキャッシュは満たしているか？」に対して「いいえ」だから
        >「ミラーではない」と結論付けています。このあたりが論拠。
        
        広義のミラーとして私は使いました。
        貴方は狭義をもって、それを否定しているだけに感じます。
        「キャッシュ」とは「一時記憶」です。
        
        >「Googleが広い意味でミラーとしての機能を果たしているか」の話のとき
        >HTTPプロトコルという限定した世界でのキャッシュの意味を持ち出して
        >キャッシュではないと判断し、それを理由に
        >「キャッシュではないからミラー」と結論付けてはいけません。
        
        ん？、私がそう言う理由で結論付けたと主張しているのですか？
        
        >> >「本人の意思によって「公開された著作物は」引用出来ます。」
        >> >「「本人の意思によって公開された著作物」は引用出来ます。」
        >> >いろんな解釈ができるし、いずれの解釈であっても不明瞭。
        >>
        >> 上の2つって殆ど違わないのでは？
        >
        >前者は
        >「公開された著作物は、引用しようとしている本人の意思によって引用出来ます」
        >と解釈可能。
        >「大きな店の看板」だと大きいのは店なのか看板なのか分かりません。
        >議論のとき無意識でこういう表記を繰り返してしまう人が
        >稀にいるみたいだけど、
        >そういう人は話が続いた後に古くさかのぼって
        >「いや、あの時のあの表記はそういう意味じゃない」
        >などと引っ繰り返して面倒を起こしやすいので、
        >少し考え直した方がいいかもしれませんねってことです。もうこれはオフトピ。
        
        既に誰かが書いていたが、話の展開上、前者の解釈が可能とは思えません。
        それと、別の意味に読める言葉や良い方などいくらでもあるし、それが日本の文化でもあります。
        「いや、あの時のあの表記はそういう意味じゃない」とひっくり返すことの何処がいけないのか私にはさっぱり分かりません。
        「大きな店の看板」とは、「大きな、店の看板」と読むのが普通です。私には分かります。
        分からなければ聞けば良いだけのこと。
        ところで、前者のどの辺が「不明瞭」なの？
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by chanbaba (13080) on 2003年08月15日 9時48分 (#379320) ホームページ
        
        貴方は「キャッシュ」を「一時記憶」と認識していないのですね。
        
        シェア
        
        親コメント
        
        Re:デフォルトキャッシュ許可 (スコア:1)
        
        by Anonymouse Coward (13650) on 2003年08月12日 12時47分 (#377329) ホームページ
        
        フェアユースに当てはまるような気もする。
        漠然としすぎてて素人判断は無理でしょうが。
        http://www.cric.or.jp/gaikoku/america/america_c1a.html#107
        
        また、このへんが関係してくるかも。
        http://www.cric.or.jp/gaikoku/america/america_c5.html#512
        
        --
        
        # ACなのでAC
        
        シェア
        
        親コメント
- いざというときには (スコア:1, おもしろおかしい)
  
  by Anonymous Coward on 2003年08月12日 1時38分 (#377130)
  
  「Webサ－バのデ－タが飛んだ! バックアップとってなかった! そうだGoogleのキャッシュに残ってるぞ!」
  こういうこともあるので続けてもらわないと困ります。
  
  #ホントにあった話なのでAC
  
  シェア
  
  親コメント
  - Re:いざというときには (スコア:1)
    
    by argon (3541) on 2003年08月12日 18時50分 (#377552) 日記
    
    同じように Web Archive のデータのおかげで助かりました。
    
    Web に公開して分散バックアップはいいのだが、回収するのが大変なんだな。
    
    シェア
    
    親コメント
キャッシュ？ミラー？ (スコア:1, 参考になる)

by Anonymous Coward on 2003年08月12日 0時18分 (#377091)

>技術的に「キャッシュ」ではなく「ミラー」と呼ぶべきものではないのか

「キャッシュ」かどうかはさておき、少なくとも「ミラー」と呼ぶのは違うでしょう。内部的にはともかく、ユーザーにはミラーページとして見えてるわけでも、そう意図して提供されているわけでもないから。

「キャッシュ」でないとも言い難い。元サイトより軽い場合が少なくないので、手早く内容を確認する目的でよく使うし。

なので、私的には「キャッシュ」。
- 私の感覚だと (スコア:2, 興味深い)
  
  by take0m (4948) on 2003年08月12日 10時37分 (#377259) 日記
  
  むかしサーチエンジンを作ったことがあるのですけど、
  
  サーチエンジンのインデクサがクローラと連動して、あるいはクローラに含まれていてリアルタイムにインデキシングせずに、クローラで取得したデータをファイル化してサーチエンジン内に保存し、後でまとめてインデキシングするというパターンの場合の、一時保存されたファイルがキャッシュですかね。
  
  それを外部に公開するからもめているんだと思います。
  
  それをキャッシュと記述しているからさらにもめるんだと思います。
  
  GoogleはPageRankを付ける必要上ページ間の依存関係が必要となりますから、全ページをキャッシュした後にインデキシングしないといけないのだとも思います。
  
  サーチエンジンにとって収集したWebページの使用目的はサーチエンジンのためのインデキシング用途であって、Googleのように大公開するのは二次利用と言えなくもないですよね。
  
  シェア
  
  親コメント
- Re:キャッシュ？ミラー？ (スコア:1)
  
  by pmon (17095) on 2003年08月12日 0時28分 (#377096)
  
  うちの職場でフィルタリングかかってるサイトを
  どうしても見たいときはキャッシュを見て何とか
  頑張ってます。
  
  シェア
  
  親コメント
「全く知らなかった」って (スコア:0)

by Anonymous Coward on 2003年08月11日 17時35分 (#376869)

県広報課によると、県行事の応募者分については、外部からの指摘もあり1日の時点で検索サイトの運営者に削除依頼を出したが、韓国人訪日団員分については「検索サイトでの掲載を全く知らなかった」と説明している。
応募者分の指摘を受け、対応までしてるのに、韓国人訪日団員分に関しては「全く知らなかった」というのはどうかと思うが。個別に指摘してやらないといけないのだろうか？

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Googleキャッシュで鳥取県個人情報流出の2次被害 More ログイン

InternetArchiveは？ (スコア:4, 興味深い)

Re:InternetArchiveは？ (スコア:1)

本質 (スコア:3, 参考になる)

Re:本質 (スコア:1)

Re:やつらは (スコア:0)

ビジネスの予感 (スコア:3, すばらしい洞察)

Re:ビジネスの予感 (スコア:1)

キャッシュ抹消の最善手 (スコア:2, 参考になる)

Re:キャッシュ抹消の最善手 (スコア:2, すばらしい洞察)

Re:キャッシュ抹消の最善手 (スコア:0)

ダウト (スコア:1, 参考になる)

Re:ダウト (スコア:1, 参考になる)

Re:ダウト (スコア:0)

Re:ダウト (スコア:1, おもしろおかしい)

Re:ダウト (スコア:1, 参考になる)

Re:ダウト（オフトピ） (スコア:1)

Re:ダウト (スコア:1)

１日から５日までの推移 (スコア:2, すばらしい洞察)

Re:１日から５日までの推移 (スコア:2, 参考になる)

Re:１日から５日までの推移 (スコア:1)

Re:１日から５日までの推移 (スコア:1)

下記の検索エンジンで再検索できます (スコア:1, おもしろおかしい)

Re:下記の検索エンジンで再検索できます (スコア:0)

robots.txtが・・・ (スコア:1)

Re:robots.txtが・・・ (スコア:1, 参考になる)

Re:robots.txtが・・・ (スコア:1)

次は (スコア:1)

googleに対する批判 (スコア:1)

Re:googleに対する批判 (スコア:3, 参考になる)

デフォルトキャッシュ許可 (スコア:1, 参考になる)

Re:デフォルトキャッシュ許可 (スコア:1, 興味深い)

Re:デフォルトキャッシュ許可 (スコア:1, すばらしい洞察)

万国著作権条約およびベルヌ条約 (スコア:2, 参考になる)

Re:デフォルトキャッシュ許可 (スコア:1, 興味深い)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1, すばらしい洞察)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1)

Re:デフォルトキャッシュ許可 (スコア:1)

いざというときには (スコア:1, おもしろおかしい)

Re:いざというときには (スコア:1)

キャッシュ？ ミラー？ (スコア:1, 参考になる)

私の感覚だと (スコア:2, 興味深い)

Re:キャッシュ？ ミラー？ (スコア:1)

「全く知らなかった」って (スコア:0)

キャッシュ？ミラー？ (スコア:1, 参考になる)

Re:キャッシュ？ミラー？ (スコア:1)