パスワードを忘れた? アカウント作成
41320 submission
情報漏洩

疑似個人情報の無償ダウンロード開始 54

タレコミ by n_ayase
n_ayase 曰く、
People to People Communicationsから、疑似個人情報の無償ダウンロードサービスがはじまりました。(以前から有償のものはサービスされていたようで、無償サービスは疑似個人情報3000件まで、非営利目的での使用のみ可、とのことです。)

ITmediaの記事によると、

架空の名前や住所、生年月日などで構成した個人情報リストを提供する。自治体などが公開している統計データの分布を正確に反映させており、実在の情報ではないものの「本物と区別することができないほど」そっくりだとしている。

とあるので、試しにダウンロードしてみました。

 疑似個人情報はCSV形式で、確かにぱっと見ると本物の個人情報のようにも見えますが、家の近くの住所を調べてみた限りでは、疑似個人情報に含まれている住所は実在しない番地になっているようです。
(たとえば○○町3丁目 まである地域だと、4丁目以降になってたり。家の近くの地名しか見ていないので全部がそうとは言い切れませんが。ダウンロード元のFAQのページによると実在の住所はほとんど発生せず、本物の個人情報と同じレコードが含まれる可能性は極端に低いようですね。電話番号もデータ生成時には存在しない電話番号にしてあるそうです。)

 テストデータとして使用したり、ダミーデータとして置いておく(不正アクセスした人がこっちを盗んでいくことを期待?)などの使い方が提示されていますが、これを使ったシステムが「外から疑似個人情報データだけが見える」状態になっているのを発見され、先に掲示板で公開されたりすると、変な騒ぎになったりするのかもしれませんね。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 擬似個人情報は (スコア:4, 参考になる)

    by Anonymous Coward on 2008年11月27日 15時03分 (#1462845)
    名簿処理などのテストデータに使う擬似個人情報は、
    なんちゃって個人情報 [kazina.com] をよく使っていました。
    • by celtis (33470) on 2008年11月28日 13時36分 (#1463442)
      なんちゃって個人情報は、わたしもテスト用に愛用していました。
      名前と性別が連動してくれたらと思いますが、今時のイタくて読めない名前も登録されているので、
      あんまり支障がないかもしれません。

      先日、中学校の在校生一覧を見る機会がありましたが、ふりがなをふってあっても読むのに戸惑う
      名前が散見されました。ひらがな表記で「○○ るるる」ってのを見たときはミスプリかと。
      親コメント
  • 名前 (スコア:2, おもしろおかしい)

    by shinshimashima (9763) on 2008年11月27日 14時42分 (#1462833) 日記
    統計を反映ってどの程度までなんだろう?特に名前とか
    宮崎県には黒木さんがいっぱいいたり、聖子さんはオリンピックイヤーの生まれだったり、DQNネームは(以下略)
    • Re:名前 (スコア:2, 参考になる)

      by waffle (34526) on 2008年11月27日 15時55分 (#1462883)
      >統計を反映ってどの程度までなんだろう?

      疑似個人情報とは? [start-ppd.jp]に書いてありますね。

      住所、年齢、性別、性、名ですね。

      住所の分布が、自治体の人口比率と同じ比率になっている。
      年齢と性別の比率が人口統計に基づいている。
      性による性別と年齢の比率が、日本人の姓トップ10000位の人口比率に基づいている。
      名前は、生まれた年代別の統計データで決定している。

      だそうです。

      >宮崎県には黒木さんがいっぱいいたり、聖子さんはオリンピックイヤーの生まれだったり、DQNネームは(以下略)

      住所別の性の比率は書いてないので、宮崎県に黒木さんがいっぱいいるかは不明。
      年代別に名前は違うらしいので、聖子さんやDQNネームは反映してる可能性が高い。
      親コメント
  • わかった! (スコア:2, おもしろおかしい)

    by Anonymous Coward on 2008年11月27日 14時44分 (#1462837)
    「漏洩がありましたが、疑似個人情報なので弊社のお客様には影響がありません」
    パターンが使えるようになるんですね!!
    これで500円払わずにすむよ!!
    ※すぐバレます
  • by Anonymous Coward on 2008年11月27日 14時45分 (#1462838)
    21世紀生まれの人間のデータが一つもありませんね。
  • by VOT (18468) on 2008年11月27日 18時38分 (#1462993)
    システムのテストデータとして有意義なのは、
    本当の本当に本物のデータか、絶対ありえないような極端なデータか
    どっちかじゃないですかね。

    本物っぽいんだけど、実はギリギリ違うってのは
    閾値的なチェックになる可能性はないでもないですか
  • by Anonymous Coward on 2008年11月27日 14時51分 (#1462840)
  • by Anonymous Coward on 2008年11月27日 15時17分 (#1462858)
    >非営利目的での使用のみ可
    って、あんまり使いどころが思いつかないんだけど・・・

    # 非営利団体が使うシステムでも、金払って外注したら使えんし
  • このデータをXLSにしたり、MDBにしたり、適当にレコードを削除したりしてハッシュを変えつつ、WinnyやShareに~名簿とか~リストと言ったファイル名でアップする。そうすると名簿っぽいものが沢山あって、本物の名簿を探すのが困難になり、情報が漏洩しても発覚しにくくなる。

    ・・・とかはだめ?
    • by eigen (34018) on 2008年11月27日 16時30分 (#1462909)
      今回のはほぼ100%実在しない住所だから中身を見ればすぐにニセモノってわかりますね。
      商売として擬似個人情報を扱ってるんだから実在する個人情報が混ざってたらマズいけど、
      こっそり実在する住所と適当な名前の組み合わせで嘘データを流して木を森に隠すなんてことは非公式に行われてそう。。。
      親コメント
    • by Anonymous Coward
      本物のデータを渡す時に偽データを混ぜて、万が一の情報流出時に出所を明らかにする

      …とか?
  • by pjenon (33387) on 2008年11月27日 15時48分 (#1462877)
    >実在の住所はほとんど発生せず
    とあるので、
    自分の名前で検索し、仮にそこが実在の住所だったとして、
    そこに引っ越して、謝罪と賠償をうんたらかんたらとか起きなければいいですけど。

    # ねーよ
  • by ampleAmp (26562) on 2008年11月27日 16時35分 (#1462913) 日記
    「本物と区別することができないほど」って言いますけど、
    メールアドレスがすべて例示用ドメインになっていますから、
    知ってる人ならすぐ気付くでしょうし、
    知らない人でも「なんで全部example.xxxなの?」と思うような気がします。

    電話番号は、通信事業者に割り当て済みの番号領域かどうかなんて
    パッと見は分からないでしょうが。
  • by mshynd (31907) on 2008年11月27日 16時43分 (#1462920)
    実在しない電話番号・住所って、それだけでダミーとわかるのでは?

    「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」「木の葉を隠すなら森の中」 [start-ppd.jp]って言ってるけど、
    隠したいものは木の葉じゃなくて小判じゃないの?
    • by Takahiro_Chou (21972) on 2008年11月27日 21時46分 (#1463076) 日記

      「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」「木の葉を隠すなら森の中」って言ってるけど、隠したいものは木の葉じゃなくて小判じゃないの?

      「木の葉を隠すなら森」と言う有名なフレーズの元ネタになった推理小説 [dti.ne.jp]の話のキモは、
      「木の葉を森に隠した」
      じゃなくて、
      「ある特定の木の葉を隠そうとしてるヤツが、もし、森(みたいな木の葉が、そこら中にある状況)を作り出す事が出来たら……」
      って事なんで、「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」=「木の葉を隠すなら森の中」でツジツマは合ってる様な……

      そう言うやり方の、有効性は、ともかくとして。

      親コメント
      • by mshynd (31907) on 2008年11月27日 22時44分 (#1463108)
        (電話番号などで)簡単に区別できるなら、
        全然隠れてないんじゃないか、という意味のつもりでした。

        わかりにくくてごめんなさい。
        親コメント
      • >って事なんで、「大量の疑似個人情報の中に、本物の個人情報を紛れ込ませる」=「木の葉を隠すなら森の中」でツジツマは合ってる様な……

        「木の葉=Aさんの過失で発生した10件の個人情報漏洩」
        を隠すために
        「森を作る=わざとプログラムにバグを作り込み、『原因不明』の100万件の個人情報漏洩を発生させた」。

        のようなものじゃないだろうか。

        #ノーガード戦法というか焦土作戦というか。
  • こんなもの使わなくても (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2008年11月27日 18時58分 (#1463004)
    実データの名前の最後に(仮)ってつけとけばいいじゃない。
  • by Anonymous Coward on 2008年11月27日 15時37分 (#1462872)
    >本物の個人情報と同じレコードが含まれる可能性は極端に低い
    絶対に本物では無い事を確認する為に、どのような方法で元の個人データを確認したんだろう・・。

    確かに、丁目が違うと違いがあると言えるかもしれないけど、郵便物って住所間違えちゃっても、
    少々の違いならば、届いちゃいますよね・・。
    • by Anonymous Coward on 2008年11月27日 17時40分 (#1462957)
      >確かに、丁目が違うと違いがあると言えるかもしれないけど、郵便物って住所間違えちゃっても、
      >少々の違いならば、届いちゃいますよね・・。

      うちなんて住所も名前もあってても、間違えて届いちゃいますよ!
      配達記録のクレジットカードが郵便受けに入っていたときには、
      誘惑に打ち勝つのに苦労しました。
      親コメント
    • by hohehohe (11394) on 2008年11月27日 16時01分 (#1462890)
      それはもちろん名簿屋から(略
      --
      AVG anti-virus data base out of date
      親コメント
      • by hohehohe (11394) on 2008年11月27日 16時03分 (#1462892)
        というのは冗談として電話番号も気になります。
        存在しない電話番号って聞けば教えてくれるもんなんだろうか?
        --
        AVG anti-virus data base out of date
        親コメント
        • Re:本当に疑似? (スコア:2, 参考になる)

          by Anonymous Coward on 2008年11月27日 16時28分 (#1462905)
          タレコミからリンクはってあるところにかいてあるよ

          >Q. 生成した電話番号が、実在の電話番号と一致することはありますか?
          >A. 生成時時点で一致しないことを確認しております。
          >電話番号の生成には、総務省が通信事業者に割り当てていない番号領域を利用していま
          す。(以下略)
          親コメント
          • by hohehohe (11394) on 2008年11月27日 16時56分 (#1462932)
            あ、読んでませんでした。どもです。
            --
            AVG anti-virus data base out of date
            親コメント
          • by Anonymous Coward
            >>電話番号の生成には、総務省が通信事業者に割り当てていない番号領域を利用していま す。(以下略)

            それじゃ私の目的のためにはまったく使えないな

            給付金詐欺じゃないよ
    • by Anonymous Coward
      通販向けの個人情報ビジネスを行っているある会社では、
      郵送に支障が出ない範囲で住所や名前に特定の文字列を付加して、
      郵便物をトレースするテストを行っている、
      という噂を思い出しました。
  • by Anonymous Coward on 2008年11月27日 16時33分 (#1462911)
    恐れ多くもあの方の個人情報を晒すとは/.jも頑張りますねw
  • by Anonymous Coward on 2008年11月27日 17時43分 (#1462959)
    このリストには「1丁目1番地1号」な住所は入り得ないのでしょうか。

    実物を見ていないAC
    • by Anonymous Coward
      丁目も番号もない住所とか普通に実在してると思いますので、そういうのにつければいいんじゃないですか?
      # 網走番外地とか
  • by Anonymous Coward on 2008年11月27日 18時07分 (#1462973)
    ためしにダウンロードしてみましたが、定義がどこにも書いてないので
    いまいちよく判らない列があります。
    他はサイトにもあるサンプルの表に項目名が書いてあるので判ったのですが、
    右の3つの数値列は何を表してるんでしょうね。

    • Re: (スコア:0, 既出)

      by Anonymous Coward
      疑似個人情報に含まれる項目一覧 [start-ppd.jp]に定義があります。
      ちょっとわかりにくい場所にありますね。
    • by Anonymous Coward
      無償版はサンプルなので、有償版の説明をきちんと読みましょう。疑似個人情報に含まれる項目一覧 [start-ppd.jp]より、

      18 番号1 ランダムに求めた0~10の整数(均等分布)
      19 番号2 5を平均とする正規分布を用いて求めた、0~10の整数
      20 番号3 自由度1のカイ二乗分布を用いて求めた、0~10の整数

typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...