パスワードを忘れた? アカウント作成
6431079 journal
日記

chuukaiの日記: 住所でポン!のこと

日記 by chuukai

前に表のストーリーになった時には、「住所でポン!」のサイト開設者である鳥取ループ氏のことを知らない人が結構いて、そちらの方に驚きました。
「部落地名総鑑」でググると検索結果の1ページ目に鳥取ループ氏のページがいくつか出てくるから、もっと有名な人だと思っていました。

表のストーリーの掲載後、「住所でポン!」に接続するとグーグルマップに転送されるようになりました。
しかし、数日前からまた「住所でポン!」が公開されました。同時に全てのデータとして「住所でポン!ポータブル2007」も公開されました。公開場所は、最初はaxfcというダウンローダーでしたが、そこで削除された後、「住所でポン!」のサイトにファイルが置かれてリンクされていました。現在は、そのリンクは外されて、グーグルマップに転送されるようになっています。

「住所でポン!ポータブル2007」がどのようなものであるのか興味があったため、axfcからダウンロードをしてみました。「住所でポン!ポータブル2007.zip」というファイルで、容量は683MBでした。
伸張してみると、中身は「住所でポン!」の中のhtmlファイル全部から「苗字でポン!」の部分を除いたものでした。ファイル数は318,241個で、容量は2.87GBでした。
どれくらいの数の電話番号が登録しているのかを調べるため、すべてのファイルから電話番号、氏名(名称)と所在地を抜き出して,必要に応じてカンマと改行を付け加えて1つのcsvファイルにしました。手作業でやったら数十日かかるのでしょうけれど、Linux上のシェルでコマンドライン1行を打ち込んで機械を動かすだけで、1時間近くでできました。
その結果、27,262,791件の電話番号があることがわかりました。csvファイルは1.76GBになっていました。
ただ、もしかしたら複製防止目的でダミーデータが入っていたり、無いとは思いますが重複があるかもしれないので、正確な件数であるとは保証できないです。

このデータがネット上に公開されることによって、個人のプライバシーや権利利益にとってどのくらいの不利益になるのか、仮に具体的な不利益は確認できないとしても、可能性としてどのような事態になりそうなのかを、明らかにしたいなと思っていました。
しかし、それをするためにはこのデータがどのような用途に使えるのかを説明しなければならず、その説明に倣って模倣犯が出てくることがちょっと怖いです。

そこで、感想だけを述べさせていただくと、「仕事で使っているデータベースにマージしたいな」でした(爆)。
マージすることによって、相手にリーチする可能性がより高くなり、業務の効率が高くなります。紐付けってなんて便利なことなんでしょう(棒)。でも、私はデータベースの利用者であって、管理する人ではないのでマージできないんですけどね。

この議論は、chuukai (18189)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...