パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

データをすべてファイル名扱いにして高速検索を実現?」記事へのコメント

  • by Anonymous Coward on 2008年01月21日 13時43分 (#1283917)
    画像データを集めるのが趣味なので、膨大なファイルの中から同じ画像がすでにあるかどうかを探すのに、画像ファイルすべてのMD5値のリストを作って、それを検索してチェックしています。中身が同じなのに名前が違ったりして、ファイル名が役に立たないことが多いから。

    #さすがに、見た目同じでデータ的に違うものは無理だけど。JPEGで再圧縮かけたやつとか。

    あと、そのファイルの中から壁紙として使うものを、別のディレクトリにシンボリックリンクで集めたりしてますが、そのシンボリック名にMD5値を使っています。こっちは異なるディレクトリに中身の違う同名のファイルがあった場合への対策ですが。

    ファイル名にファイルの内容を直接反映させたり結びつけたりなんて、普通にみんなやってることじゃないんですか?
    • ファイル名にファイルの内容を直接反映させたり結びつけたりなんて、普通にみんなやってることじゃないんですか?
      やってますね。たとえば、OpenSSLの証明書格納用ディレクトリ [openssl.org]など。
      親コメント
    • MD5のコリジョン対策ってどうされてます?

      MD5だと不安なので、私はSHA-256で。

      16進文字列だとファイル名が長くなるので、アルファベットもいれてもうちょい工夫してます。
      重複データなどを何も考えずに、大量の携帯カメラ・デジカメ画像フォルダのバックアップができて便利です。
      親コメント
      • うちの場合はそこまで厳密性は要求してないので。
        ぶつかるとしてもかなり低確率らしいし。

        っていうか、作った頃はMD5しか知らなかった(笑)&作りなおすの面倒だからそのまま。

        MD5値を目視で比較する時も、先頭数文字と後ろ数文字ぐらいしか見ないし、
        個人的にはそれでも十分な精度だから。

        #そうかぁ、最近はSHA-1でも突破されてるんだ・・・。
        親コメント
        • ぶつかるとしてもかなり低確率らしいし。

          そうですね。

          まあ、今のところコリジョンは意図的に衝突させようとしたデータだけの問題で、自分が撮影したデジカメデータなどで衝突が起きることはないとは思います。

          ということで、あまり神経質になっても仕方ないのですが、どうせ同じ手間ならより良いハッシュのほうがいいかなーとウチではSHA-256にしています。
          親コメント
    • by Anonymous Coward
      うん。普通にやってるね。
      ファイル名そのものに情報を持たせるって手法は。

      DJBの作るソフトでは色々なところで使われていた。
      確かIMAP4の実装(未読管理フラグなど)でも使っているソフトがあったような。

      サーチのアルゴリズムを勉強した人や、ファイルシステムの構造を
      ちょっとでも知っているような人にとっては、当たり前の話かと。
    • by Anonymous Coward
      このコメント見て思いついたんだけど、この方法(というか例のファイルサイズが0になる圧縮方式)を使って
      こっそりエロ画像を隠すことが出来るんじゃないだろうか?
      • 数が少なければそれでもいいでしょうけど、数が多くなれば、フォルダを暗号化するなり、暗号化ディスクイメージに突っ込むなりした方が簡単で確実な気がする。見る時にいちいち復元するの面倒臭いし。それにファイルシステムにも優しそうだし。

        うちの場合、ほとんどのエロ画像はそのまま格納してありますが、いくつかの「さすがにこれは見られるとやばい」というファイルは暗号化したディスクイメージに突っ込んで、ディスクイメージのファイル名はお固い感じで付けてます。<お約束
        親コメント
    • by Anonymous Coward
      http://www.vector.co.jp/soft/win95/util/se257656.html [vector.co.jp]
      重複ファイル削除ツールでいいんじゃ?

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

処理中...