パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

データをすべてファイル名扱いにして高速検索を実現?」記事へのコメント

  • by Anonymous Coward
    画像データを集めるのが趣味なので、膨大なファイルの中から同じ画像がすでにあるかどうかを探すのに、画像ファイルすべてのMD5値のリストを作って、それを検索してチェックしています。中身が同じなのに名前が違ったりして、ファイル名が役に立たないことが多いから。

    #さすがに、見た目同じでデータ的に違うものは無理だけど。JPEGで再圧縮かけたやつとか。

    あと、そのファイルの中から壁紙として使うものを、別のディレクトリにシンボリックリンクで集めたりしてますが、そのシンボリック名にMD5値を使っています。こっちは異なるディレクトリに中身の違う同名のファイルがあった場合への対策ですが。

    ファイル名にファイルの内容を直接反映させたり結びつけたりなんて、普通にみんなやってることじゃないんですか?
    • MD5のコリジョン対策ってどうされてます?

      MD5だと不安なので、私はSHA-256で。

      16進文字列だとファイル名が長くなるので、アルファベットもいれてもうちょい工夫してます。
      重複データなどを何も考えずに、大量の携帯カメラ・デジカメ画像フォルダのバックアップができて便利です。
      親コメント
      • うちの場合はそこまで厳密性は要求してないので。
        ぶつかるとしてもかなり低確率らしいし。

        っていうか、作った頃はMD5しか知らなかった(笑)&作りなおすの面倒だからそのまま。

        MD5値を目視で比較する時も、先頭数文字と後ろ数文字ぐらいしか見ないし、
        個人的にはそれでも十分な精度だから。

        #そうかぁ、最近はSHA-1でも突破されてるんだ・・・。
        親コメント
        • ぶつかるとしてもかなり低確率らしいし。

          そうですね。

          まあ、今のところコリジョンは意図的に衝突させようとしたデータだけの問題で、自分が撮影したデジカメデータなどで衝突が起きることはないとは思います。

          ということで、あまり神経質になっても仕方ないのですが、どうせ同じ手間ならより良いハッシュのほうがいいかなーとウチではSHA-256にしています。
          親コメント

「毎々お世話になっております。仕様書を頂きたく。」「拝承」 -- ある会社の日常

処理中...