Googleキャッシュで鳥取県個人情報流出の2次被害 122
ストーリー by Oliver
一度でたらもう引っ込まない 部門より
一度でたらもう引っ込まない 部門より
jbeef曰く、"毎日新聞DIGITALトゥデイに8月8日付で「鳥取県HPから個人情報が“2次流出”」という記事が出ている。これは、8月1日の新聞報道「鳥取県HPから個人情報流出、 最長9カ月間」(朝日新聞の同事件の記事)の続報のようだ。1日の事件では、県行事「全国創作和人形コンクール」の応募者89人の住所や電話番号を誤ってWebで公開していたのを「2ちゃんねる」掲示板で指摘されて、削除したというもの。しかし、報道発表後も、Googleキャッシュで閲覧可能な状態が続き、5日夜に削除されたという。県広報課は、
外部からの指摘もあり1日の時点で検索サイトの運営者に削除依頼を出した。[...]
個人情報が流出してしまった後の対応については、マニュアルなどはなく、手探りでの対応で、検索サイトにまで思い至らなかった
と説明しているそうだ。いろいろ突っ込みどころのある事件だ。まず第1に、1日に削除依頼を出したのに5日まで削除されないというGoogleの体制はどうなのか。第2に、個人情報を誤って公開しかねない業務に携わる者の全員が、Googleキャッシュの存在を知っていなくてはならないのか。第3に、そもそもGoogleのそれは、技術的に「キャッシュ」ではなく「ミラー」と呼ぶべきものではないのか、など。"
InternetArchiveは? (スコア:4, 興味深い)
InternetArchive [archive.org]の対応はどうなっているのでしょう。
こっちも残っている可能性があるのでは。
> 第2に、個人情報を誤って公開しかねない業務に携わる者の全員が、
> Googleキャッシュの存在を知っていなくてはならないのか。
平成国立インターネット図書館 [srad.jp]なるものもそのうちできるらしいですし、
そういったものを全て把握するなんて不可能でしょう。
同ストーリーで#366598のAC氏 [srad.jp]が危惧していた
「うっかり個人情報が漏れてたらそれも保存されちゃう」
が本当に起こってしまいましたね。
Re:InternetArchiveは? (スコア:1)
パラメタを与えるとか、他所からのリンクを拾うとか
しないといけないので、永遠に生き残るのは難しそうですね。
どちらにせよ、キャッシュが更新されるように、
流出ファイルと同名のファイルを流出時のパスに
置くのは対処法として必要ですね。
本質 (スコア:3, 参考になる)
いったん流出した情報を制御することはできないのだから、
個人情報のようなものの一次流出こそが対処すべき防問題だと
本質であると教えてやってください。
目立ったとしても、Google や Web Archive 経由の流出は
派生事例に過ぎないのだし。robot 除けなんざあっさり
無視する躾のなってない覗き屋を飼ってるところもあるしね。
Re:本質 (スコア:1)
とりあえず、「内部向け」と称するものを
外部に公開してるサイトに置いた時点で敗北なんだろうなぁ。
#記事を鵜呑みにすると、該当ページを作った人は
#できた結果を自分の端末で表示して確認ってことを
#やってないんだろうか?と思ってしまう。
#「掲載」の意味が微妙ですが...
Kiyotan
Re:やつらは (スコア:0)
ビジネスの予感 (スコア:3, すばらしい洞察)
素人にはこういった問題に対処するのが難しいと思われます。
そこで、この問題を解決するビジネスってのもアリかも。
問題が発生した際、片っ端からキャッシュされた内容を
削除してもらうようお願いして周るというお仕事。
著作権の問題は今後のwebでも依然問題となるだろうから、
そこそこ稼げるかもね。
Re:ビジネスの予感 (スコア:1)
キャッシュ抹消の最善手 (スコア:2, 参考になる)
いけない情報を公開してしまっていた管理者は、単なる削除じゃなくて、別のファイルを置いておいて、そちらへのキャッシュの変更が一刻も早く行われるのを待つのが正解、ということでしょうかね。もちろん、Googleへの削除依頼も合わせて行うべきでしょうが。
ところで、Googleのようなキャッシュサイトって他にないのかな?
Re:キャッシュ抹消の最善手 (スコア:2, すばらしい洞察)
幾つも有りますし、今後増えないという保証はありませんので
robots.txt やその他アクセスコントロールを一通り準備しておいて
その上でコンテンツを乗せていくというのを
とりあえずおまじない的手順にしてしまえば、
うっかり漏洩事故があったとしてもそれがキャッシュされてしまう
二次災害までは防げるように思えます。
個々のアーカイバーの存在を気にするのではなく、
アーカイバーは沢山あるけど robots.txt でまとめてコントロールできる
という考えになれば各地のサイトの動向を気にする必要はないでしょう。
Re:キャッシュ抹消の最善手 (スコア:0)
某台湾のGaisbotとか。
そうなるとこれじゃ防げないな。
ダウト (スコア:1, 参考になる)
Re:ダウト (スコア:1, 参考になる)
前に爆弾ヲタが「家庭用品で作る爆発物」だかって厨サイトを掲示板spam行為で宣伝しまくりしていて、間髪入れずにサイト閉鎖に追い込んだ後に、グーグルキャッシュを宣伝しまくりを始めたので追加攻撃でクローリング先登録をしたらソレ位で消えてましたから…
別の理由で消えたのかもしれないけど…
Re:ダウト (スコア:0)
Re:ダウト (スコア:1, おもしろおかしい)
(Gooleについてですが、)一応、(だれかが)手動でクローリング先登録をしとけば1~2日で(キャッシュが)更新されるようです
(実例として、)前に
・爆弾ヲタが(作った)「家庭用品で作る爆発物」だかって厨サイトを (だれかが、)(色々な?)掲示板(に)(削除:spam行為で)宣伝(を)しまく(s/りして/って/)いた
・(その宣伝をみた私が)(サーバ管理者に連絡して)間髪入れずに(その)サイト(を)閉鎖に追い込んだ
・(宣伝していただれかは)グーグルキャッシュ(s/を/の/)宣伝しまくりを始めた
・追加攻撃で(私がGoogleの)クローリング先(としてそのページの)登録をしたらソレ位(1~2日)で((404 Not Foundを検出して)googleキャッシュから)消えてました
から…
Re:ダウト (スコア:1, 参考になる)
概ね翌日から翌々日にはキャッシュと検索結果に反映されます。時々1週間とかかかりますけど..。どういうアルゴリズムでぐるぐる回って更新しているんだろう。
Googleを検索していると「速報」登録とじっくり計算してから登録する「確定」登録があるようだ、というところまではわかっているのですが。
Re:ダウト(オフトピ) (スコア:1)
個人サイトでバーが半分もいってるなら
かなりの人気サイトだと思います。
Re:ダウト (スコア:1)
--
日本ではお盆休みですかそうですか@赤道近辺
1日から5日までの推移 (スコア:2, すばらしい洞察)
Googleからの問い合わせで県の担当者が外出中で連絡が取れなかったなんて話だとまた別の問題を考えなきゃならんだろう。
Re:1日から5日までの推移 (スコア:2, 参考になる)
Re:1日から5日までの推移 (スコア:1)
> 県行事の応募者分については、外部からの指摘もあり
> 1日の時点で検索サイトの運営者に削除依頼を出した
でいったん文が切れていて、
> 韓国人訪日団員分については「検索サイトでの掲載を全く知らなかった
というふうに文が続いているから、
・応募者分は1日に削除依頼を送った → すぐ削除された
・韓国人訪日団員分は5日夜に削除依頼を送った → すぐ削除された
なのではないでしょうか。
Re:1日から5日までの推移 (スコア:1)
これを素直に読むと、両方の情報が5日夜まで見えたようにも感じます。
#ま、わたしはmarlさんの意見に賛成なんですが
#すぐに削除されたかどうかは別として
下記の検索エンジンで再検索できます (スコア:1, おもしろおかしい)
Re:下記の検索エンジンで再検索できます (スコア:0)
Google も選択肢に入ってるやんねえ。
robots.txtが・・・ (スコア:1)
技術的にはINDEXING(INDEX)だと思うのですが、
索引を作る過程でデーターを「キャッシュ」してしまう。
もしrobots.txtが禁止制でなく許可制であれば今回の様な事は
起きないのではないでしょうか。
たとえば、
Disallow: /
ではなく
Allow: /
のような事です。
またrobots.txtが存在しない際の挙動が禁止制であれば。
とは言ってもあくまで紳士協定の域をでないのも問題ですかね
Re:robots.txtが・・・ (スコア:1, 参考になる)
>起きないのではないでしょうか。
つまり許可したやつ以外はくるな、と。
それってリンクするのに許可がいるのかという(以下フレームの源)。
そもそもどれだけの人がrobots.txtを知っているのでしょうか。
/.Jを見る人は知ってるでしょうが、今や子供や老人もページを持つ時代ですからね。
だから仮に許可制にしたら、引っかかるのがほとんどがエロページになったり。
>とは言ってもあくまで紳士協定の域をでないのも問題ですかね
そもそも普通のユーザアクセスとボットの巡回とを紳士協定以外で
見分ける方法はないでしょ?
Re:robots.txtが・・・ (スコア:1)
メタファーとして読むのが適切だと思いますが。
専門うんぬんより、google自身が問題の機能を「キャッシュ」と
呼んでいることへの疑問でしょう。
#言葉遊びだというツッコミはありかも。
次は (スコア:1)
googleに対する批判 (スコア:1)
こうした個人情報流出なんて事件はこれからも続くでしょうし、
キャッシュの消去はその都度必要になるでしょうから、これから
そうした時、googleには素早い対応を求めたいですね。
「あったものをキャッシュしただけでgoogleは悪くないじゃん」
と言う意見は間違ってないと思いますけど、そこは一企業の誠意
として。
Re:googleに対する批判 (スコア:3, 参考になる)
という視点に立てばgoogleがそもそも悪いという議論だってあり得ますわな。
(検索エンジンのキャッシュは著作権侵害か? [srad.jp]
|GoogleがDMCA的削除要求を公開 [srad.jp]
|Wayback Machineが著作権関連でトラブル [srad.jp])
私としても日頃お世話になってるんであんまり考えたくないことだが、
キャッシュ削除依頼を重ねるよりもむしろ著作人格権侵害で民事裁判
起こしてgoogleから金を取ろうと本気で考える輩が出る可能性はあるかも。
デフォルトキャッシュ許可 (スコア:1, 参考になる)
robots.txtは1995年頃から既に仕様が安定し、 webサイトを運営する者にとっては常識的な話になっていましたので、 その後からwebサイトの運営を始める者は「郷に入っては郷に従え」になることでしょう。 元々のworld-wide webの精神から考えると、 「拒否を明記しない限りデフォルトキャッシュ許可」 というgoogleの方針は技術的にも歴史的にも根拠があるように思えます。
Re:デフォルトキャッシュ許可 (スコア:1, 興味深い)
リンクの件もそうですが、WWWで公開する以上、
キャッシュされようが引用されようが仕方ないと思うべきでしょう。
著作権者にはWWWで公開しない、という選択肢があったはずです。
Re:デフォルトキャッシュ許可 (スコア:1, すばらしい洞察)
> WWWの精神が認めているからって著作権を侵害していいという話にはならないと思いますが。
そのようなWWWにrobots.txtなどの制限なしで公開している時点で
著作権者は各地のロボットにキャッシュされることを了承したと
みなされるでしょう。
キャッシュによって著作権を侵害されたくないと考えるならば
最初からWWW上に公開しないか、公開するとしても
なんらかの制限をつけておくべきです。
その点について具体的に明言された法律はまだありませんが、
WWW上における既存の風習は重要です。
法があれば法、なければ風習です。
GoogleやarchiveサイトやGoogleを目標にして似たような機能にしている
他の検索エンジンが複数すでに存在している場所であり
制限を付けずに公開すればキャッシュされてしまうのは既に事実であり
変えようがありません。
それらのエンジンの存在はあちこちの国に分散しており、
日本の法によって規制をかけることも不可能です。
WWWというのは
制限を付けずに公開したらロボットにキャッシュされてしまうような場所
であり、それが前提になっています。
そのような場所に自分の著作物を公開するかどうかの判断は著作権者の責任です。
> 法的根拠がないと裁判じゃ不利なのでは?
日本の著作物を台湾の検索エンジンがキャッシュしたとき
どこの国の法律を根拠にどこの国の法廷で争いますか?
いくらでも簡単に国境を超える問題ですので
確実な法的根拠を用意するのは困難ということになります。
そういうときは
WWW上の風習や歴史、HTTPというプロトコルの仕様書に記載されている内容など
全世界で共通として扱われる事実を基に妥当な判断を探ることになるでしょう。
万国著作権条約およびベルヌ条約 (スコア:2, 参考になる)
>どこの国の法律を根拠にどこの国の法廷で争いますか?
万国著作権条約および(または)ベルヌ条約でしょう。
台湾は締結「国」に入れてもらえないため、考慮外ですが、ここの議論でそんな例外を持ち出されても困る。
Re:デフォルトキャッシュ許可 (スコア:1, 興味深い)
WWWが成立した時にはrobots.txtなんてなかったんでは?
検索ロボットは前提ではなく、後から(それまでの風習を無視して)定着してしまったものだと思いますが。
Re:デフォルトキャッシュ許可 (スコア:1)
前提なのは検索ロボットではなくて、ましてや風習でもないのでは?前提にあるのは、
それまでの「キャッシュができてしまう」というシステムに載っているという事実で
はないかな?
Re:デフォルトキャッシュ許可 (スコア:1)
出来なければ、これは問題になってないでしょうね。
出来るというか、当然あるという事実についての話題
です。また、
コピーと似た概念だけど、キャッシュは異なった用法
についての記述でしょうからね。話題としての
>コピーができてしまうCD-ROM(CD/Rへ)とかコピーができてしまう本とかコピーができてしまう地図とか(以下略
は、論旨がわかっていないのではないかな?と思いますよ。
Re:デフォルトキャッシュ許可 (スコア:1)
可能性を前提としているわけではないでしょうね。
むしろ、そうあるという事実が話題になっていると
いうことなんですよ。
>実は検索エンジンは許可制の方が良いかな?とか思うこの頃。
検索エンジンではなくて、ウェブページ登録の許可制が
よろしいのでは?元をただせば、他人様の情報を載せる
というトンマが招いたことですよね。
>が、googleに捕まると…シャレでは済まないでしょ。
googleではなくて、元を発表しちまったということの問題。
情報の提示で共有可能な状態にしたという落ち度が問題で
あって、共有情報を維持することに問題はないということ
なんですけどね。つまりは、元をたださないと、被害はな
くならないということ。出来るだけ根本部分で問題を抑制
しないといけません。発生してからのことをどうこういっ
て、有意なものを制限しておこう...というのは、ある面の
本末転倒ではないですかね?
Re:デフォルトキャッシュ許可 (スコア:1)
つまり、営利企業だとまずくて非営利だとまずくなくなるって
ことですか?
>もちろん、googleがボランティアで尚且つ、そういう業務を行う事を公的に規定・承認されたものであるのであれば事情はあるでしょうが、現実にはそうではないですからね。
ほぉ?つまり、「その活動自体が他人に危害を加える(被害を広
げる)のであれば、それはきちんと考えなければならない事」を
ボランティアであり公的に承認されたら、やってもよいというこ
と?そんなことの前に、その事柄の良し悪しが問題なんですよ。
論旨がめちゃくちゃですよ。よいことなのか?当然の帰結である
ことなのか?ということが大事であって、ボランティアかどうか
で良し悪しが変化するというのは、考え方としてむちゃくちゃで
す。営利のためにやったことでも良いことは良いこと、非営利やっ
たとしても悪事は悪事ですよ。
Re:デフォルトキャッシュ許可 (スコア:1)
そもそもミラーであってキャッシュじゃないような。
ついでに、本人の意思によって公開された著作物は引用出来ます。
>最初からWWW上に公開しないか、公開するとしても
>なんらかの制限をつけておくべきです。
今回のって設定ミスで漏れたんじゃないの?
Re:デフォルトキャッシュ許可 (スコア:1, すばらしい洞察)
> ールではないのでは?
> そもそもミラーであってキャッシュじゃないような。
もしミラーリングならは逆方向のデータ移動も当たり前のように成功します。
元のページがphpで記述されているならば、計算結果のHTMLではなく
元のphpのソースを転送することになるし、
画像や動画などのファイルも全てコピーされます。
しかしgoogleの場合、出力結果のHTMLだけがキャッシュされており、
元のデータまるごと転送しているわけでもなく、
また双方向のデータ転送は事実上不可能です。
googleのキャッシュを表示すると「これはキャッシュです」のヘッダー
が付加されているためそれを使って元に戻すことができません。
またgoogleのキャッシュはHTML以外のバイナリーの多くはキャッシュされません。
これらのことから、googleのキャッシュは
ミラーの特性をほとんど持っていないことが伺えます。
"robots.txt" によってgoogleのロボットの動作をコントロール
することが可能ですが、その際
「googleがキャッシュするかどうか」のコントロールも可能ですので:
> robots.txtはロボットのコントロールであって、キャッシュのコントロ
> ールではないのでは?
キャッシュのコントロールといえばそうだともいえます。
ただしRFC2616に記載されているようなコントロールとは別の話になります。
> ついでに、本人の意思によって公開された著作物は引用出来ます。
本人って誰?
通常、「本人」が出てくるときは、その文面の前に
その人物が如何なる人物かが判明してますよね。
「本人の意思によって「公開された著作物は」引用出来ます。」
「「本人の意思によって公開された著作物」は引用出来ます。」
いろんな解釈ができるし、いずれの解釈であっても不明瞭。
Re:デフォルトキャッシュ許可 (スコア:1)
>元のページがphpで記述されているならば、計算結果のHTMLではなく
>元のphpのソースを転送することになるし、
>画像や動画などのファイルも全てコピーされます。
それ、RAIDとかのファイルシステムのミラーリングでしょ。
鏡で反射された光を弄ると映された物が変わるなんて事は無いけど。
httpとかの層での話は、「プログラムのソースを転送しないからミラーではない」と言いたいのですか?
そもそも、鏡には左右反対に映るんだけど...そう言う話じゃないか。
>しかしgoogleの場合、出力結果のHTMLだけがキャッシュされており、
>元のデータまるごと転送しているわけでもなく、
>また双方向のデータ転送は事実上不可能です。
httpって1個ずつ独立してますけど....
と言うか、「出力結果のHTMLだけ」すらサイト内全部保存されていないけど。
>googleのキャッシュを表示すると「これはキャッシュです」のヘッダー
>が付加されているためそれを使って元に戻すことができません。
>またgoogleのキャッシュはHTML以外のバイナリーの多くはキャッシュされません。
>これらのことから、googleのキャッシュは
>ミラーの特性をほとんど持っていないことが伺えます。
ミラーの特性って、本来、双方向ではなく一方向なのでは?
ついでに、俺のトップページのgoogleのキャッシュはHTMLヘッダーの前に追加されているだけだから、簡単に取ることが出来るような気がします。
「元に戻すことができません」とかって、何を根拠に言っているのかいまいち分かりません。
>キャッシュのコントロールといえばそうだともいえます。
>ただしRFC2616に記載されているようなコントロールとは別の話になります。
ガーーン、別の話を添付してくれないのか....
論拠が全然伝わってこないです。
俺のサイトは「cache-control: must-revalidate, max-age=0」とコントロール指示しているけど、確認せずにキャッシュを使って良いとか色々指示できますよね。
IEの5.5や6は認識するし。
>本人って誰?
>通常、「本人」が出てくるときは、その文面の前に
>その人物が如何なる人物かが判明してますよね。
「本人」って公表権とかの話。
>「本人の意思によって「公開された著作物は」引用出来ます。」
>「「本人の意思によって公開された著作物」は引用出来ます。」
>いろんな解釈ができるし、いずれの解釈であっても不明瞭。
上の2つって殆ど違わないのでは?
意味が違うのって「よって」の後で切った場合でしょ。
まぁ、この話は本題とは関係ないからどうでも良いんだけど。
Re:デフォルトキャッシュ許可 (スコア:1)
>まるで鏡に映ったように、同じ姿や機能を見せてくれます。
>従来からミラーサイトと呼ばれているサイトの多くがそういう状態であることを前提に、
>Googleがそれと違っている
>(見た目も違うし、存在しているデータをまるごとコピーしているわけでもない)、
>だからミラーとして機能を果たしていないのだという論理展開です。
「大抵のミラーサイト」に限定した話ですか。
一部のミラーサイトは、ミラーサイト側はミラーだと一目で分かるように書かれていますよね。
そういったサイトの存在は無視しての、私の主張の否定ですね。
鏡に映るのは左右反対だということもご存知のはずです。
>「世間一般に存在しているミラーサイトの多くに要求される機能を、
>Googleのキャッシュは満たしているか?」に対して「いいえ」だから
>「ミラーではない」と結論付けています。このあたりが論拠。
広義のミラーとして私は使いました。
貴方は狭義をもって、それを否定しているだけに感じます。
「キャッシュ」とは「一時記憶」です。
>「Googleが広い意味でミラーとしての機能を果たしているか」の話のとき
>HTTPプロトコルという限定した世界でのキャッシュの意味を持ち出して
>キャッシュではないと判断し、それを理由に
>「キャッシュではないからミラー」と結論付けてはいけません。
ん?、私がそう言う理由で結論付けたと主張しているのですか?
>> >「本人の意思によって「公開された著作物は」引用出来ます。」
>> >「「本人の意思によって公開された著作物」は引用出来ます。」
>> >いろんな解釈ができるし、いずれの解釈であっても不明瞭。
>>
>> 上の2つって殆ど違わないのでは?
>
>前者は
>「公開された著作物は、引用しようとしている本人の意思によって引用出来ます」
>と解釈可能。
>「大きな店の看板」だと大きいのは店なのか看板なのか分かりません。
>議論のとき無意識でこういう表記を繰り返してしまう人が
>稀にいるみたいだけど、
>そういう人は話が続いた後に古くさかのぼって
>「いや、あの時のあの表記はそういう意味じゃない」
>などと引っ繰り返して面倒を起こしやすいので、
>少し考え直した方がいいかもしれませんねってことです。もうこれはオフトピ。
既に誰かが書いていたが、話の展開上、前者の解釈が可能とは思えません。
それと、別の意味に読める言葉や良い方などいくらでもあるし、それが日本の文化でもあります。
「いや、あの時のあの表記はそういう意味じゃない」とひっくり返すことの何処がいけないのか私にはさっぱり分かりません。
「大きな店の看板」とは、「大きな、店の看板」と読むのが普通です。私には分かります。
分からなければ聞けば良いだけのこと。
ところで、前者のどの辺が「不明瞭」なの?
Re:デフォルトキャッシュ許可 (スコア:1)
Re:デフォルトキャッシュ許可 (スコア:1)
漠然としすぎてて素人判断は無理でしょうが。
http://www.cric.or.jp/gaikoku/america/america_c1a.html#107
また、このへんが関係してくるかも。
http://www.cric.or.jp/gaikoku/america/america_c5.html#512
# ACなのでAC
いざというときには (スコア:1, おもしろおかしい)
こういうこともあるので続けてもらわないと困ります。
#ホントにあった話なのでAC
Re:いざというときには (スコア:1)
Web に公開して分散バックアップはいいのだが、回収するのが大変なんだな。
キャッシュ? ミラー? (スコア:1, 参考になる)
「キャッシュ」かどうかはさておき、少なくとも「ミラー」と呼ぶのは違うでしょう。内部的にはともかく、ユーザーにはミラーページとして見えてるわけでも、そう意図して提供されているわけでもないから。
「キャッシュ」でないとも言い難い。元サイトより軽い場合が少なくないので、手早く内容を確認する目的でよく使うし。
なので、私的には「キャッシュ」。
私の感覚だと (スコア:2, 興味深い)
サーチエンジンのインデクサがクローラと連動して、あるいはクローラに含まれていてリアルタイムにインデキシングせずに、クローラで取得したデータをファイル化してサーチエンジン内に保存し、後でまとめてインデキシングするというパターンの場合の、一時保存されたファイルがキャッシュですかね。
それを外部に公開するからもめているんだと思います。
それをキャッシュと記述しているからさらにもめるんだと思います。
GoogleはPageRankを付ける必要上ページ間の依存関係が必要となりますから、全ページをキャッシュした後にインデキシングしないといけないのだとも思います。
サーチエンジンにとって収集したWebページの使用目的はサーチエンジンのためのインデキシング用途であって、Googleのように大公開するのは二次利用と言えなくもないですよね。
Re:キャッシュ? ミラー? (スコア:1)
どうしても見たいときはキャッシュを見て何とか
頑張ってます。
「全く知らなかった」って (スコア:0)