パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

データをすべてファイル名扱いにして高速検索を実現?」記事へのコメント

  • by Anonymous Coward
    画像データを集めるのが趣味なので、膨大なファイルの中から同じ画像がすでにあるかどうかを探すのに、画像ファイルすべてのMD5値のリストを作って、それを検索してチェックしています。中身が同じなのに名前が違ったりして、ファイル名が役に立たないことが多いから。

    #さすがに、見た目同じでデータ的に違うものは無理だけど。JPEGで再圧縮かけたやつとか。

    あと、そのファイルの中から壁紙として使うものを、別のディレクトリにシンボリックリンクで集めたりしてますが、そのシンボリック名にMD5値を使っています。こっちは異なるディレクトリに中身の違う同名のファイルがあった場合への対策ですが。

    ファイル名にファイルの内容を直接反映させたり結びつけたりなんて、普通にみんなやってることじゃないんですか?
    • by Anonymous Coward on 2008年01月21日 14時23分 (#1283930)
      うん。普通にやってるね。
      ファイル名そのものに情報を持たせるって手法は。

      DJBの作るソフトでは色々なところで使われていた。
      確かIMAP4の実装(未読管理フラグなど)でも使っているソフトがあったような。

      サーチのアルゴリズムを勉強した人や、ファイルシステムの構造を
      ちょっとでも知っているような人にとっては、当たり前の話かと。
      親コメント

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

処理中...