パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

データをすべてファイル名扱いにして高速検索を実現?」記事へのコメント

  • Visual Basic 製と言う事は NTFS 上で利用する事になると思うのですが……。

    肥大化した MFT によりディスク領域が圧迫され、しかも別途デフラグソフトを購入しないとデフラグが出来ない (OS 標準のデフラグは MFT の整理をしない) 物が出来上がったと言う事ですか。

    RDB でもフルテキストインデックスとか、今時サポートしていない方がレアだと思うんですけどねぇ。

    NTFS なら小さなファイルなら MFT に突っ込んじゃうのだし、それこそ Windows Desktop Search や Google Desktop Search と連動させてデータを小さなファイルとして保持させ、検索自体は WDS や GDS

    • 「1ディレクトリの中には10万以上のファイルを置かないようにしましょう」 [microsoft.com]とMSが推奨してるんですが、そっち方面から見ても問題がありそうな。

      %temp%の中に大量に一時ファイルを作って後片付けしない行儀の悪いツールをデバッグしたことがありますが、場所が場所だけに何をやらせても遅くなってて大変でした。
      --
      署名スパムがウザい?アカウント作って非表示に設定すればスッキリさ。
      • 従来のファイルシステムでは、ファイル名の検索を線形に行っていたのでそんなに速くならず、その欠点を避けるためにsquid [1] で深いディレクトリを掘るという構成をとっていたのを思い出します。最近のファイルシステムはファイル名をインデックス化して高速にファイルの検索が出来るようにしている [2] らしいですが、このネタはそれを利用したということなのでしょうか。
        幾ら工夫したとはいえ、RDBがファイルシステムに負けるのは信じられないですが。

        [1] h [squid-cache.org]
        • Re: (スコア:1, 参考になる)

          by Anonymous Coward
          NTFSのディレクトリ管理はBツリーです。

          まじめに実装してあるかどうかはともかくとして、
          ファイル数が変化しても全てのファイルに同じ
          比較回数でたどり着けるというのがアルゴリズム的な
          特徴です。

          ファイルを追加したりすると、追加部分の比較回数だけが
          増えないように、その都度、ツリー全体を組みかえて
          段数調整をやっているハズです。
          (サブディレクトリのパスの扱いはどうなっているんだろう?)

          他に有名なのは、漢字TALK7のころにしょっちゅう
          壊れてくれたMacのBツリーですかね。

          # MAC OS8になってから壊れた記憶はないけど。
          • by Anonymous Coward on 2008年01月22日 12時42分 (#1284507)
            B+ツリーだそうです。RDBの限界どうのこうのというより、簡素な仕組みが欲しかっただけなんじゃ?
            すでにあるアルゴリズムの実装を利用して残りを作るってのは技術の基本なので、バカにしてるっぽい人が多いのはちょっとどうなのよと思う。でも、ことさら取り上げるほどのすごいものでもないような。
            親コメント
            • by Anonymous Coward
              B+ツリーを実装しているライブラリくらいありそうなものだけど。
              今回のソリューションで気になるのは、ファイルシステムにべったりなところ。例えば、もっと大量のデータをもっと速く検索したい(ストップウォッチでは計測不可能なくらいに)という要望に答えるのは難しいんじゃないかな。

「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」

処理中...