Re:Database とファイルシステムの統合で期待するべきこと (#1302318) | MySQL＋FUSEでファイルシステムを実現するMySQLfs

「MySQL＋FUSEでファイルシステムを実現するMySQLfs」記事へのコメント

記事ページを表示すべてのコメント取得

検索30コメント Log In/Create an Account

Database とファイルシステムの統合で期待するべきこと (スコア:4, すばらしい洞察)

by NaruTo (1519)

「ファイルシステムを (Relational) Database にのっけると情報の検索が早くなる」と
期待する人が多いような気がするけど、それは間違っている気がする。
属性の整備とかが適正に行われ、RDB に乗っけたほうがいい形になっている情報なら
検索が速くなるだろうが、
そうなっておらず、RDB に乗っける意味がない情報ならやっぱり速くならず、
形式にとらわれない形でのインデックス付けを行うシステムの方が有用だという状態は
簡単にはひっくり返らないと思う。

じゃあ、なぜ Database とファイルシステムをくっつけようとするのか。

--
マクロの基本は検索置換(by y.mikome)
- Re: (スコア:2, 参考になる)
  
  by L.star (163)
  
  属性の整備とかが適正に行われ、RDB に乗っけたほうがいい形になっている情報なら
  検索が速くなるだろうが、
  そうなっておらず、RDB に乗っける意味がない情報ならやっぱり速くならず、
  形式にとらわれない形でのインデックス付けを行うシステムの方が有用だという状態は
  簡単にはひっくり返らないと思う。
  
  形式にとらわれない形、といっても個々のフォーマットに応じた解析はするわけですから、これは疑問ですね。おそらく、RDBに乗っけることの出来ないような情報は、現在のインデックス付けでは効率化できないでしょう。
  そうではなくて、検索以外のオペレーションが高速化できな
  - Re:Database とファイルシステムの統合で期待するべきこと (スコア:1)
    
    by NaruTo (1519) on 2008年02月23日 15時44分 (#1302318) ホームページ日記
    
    WinFSは「検索したい/アドレス長などのデータして統合して使いたい」->「じゃあRDBMS使おう」という設計的な流れを普通に踏んだのだと思います。で、read-write性能が出ない->NTFSベースにするしかない->現場混乱して収拾つかない->中止、という形を踏んだのでしょうね。
    
    一つの目的にたる発想の元は唯一だと限らないので、どの回答の唯一絶対の回答ではないですが、
    WinFS は
    「SQL Server を NTFS に統合する」
    
    というアプローチが取られたはずです。
    
    実際、WinFS が高速になる理由の説明として
    「”対応するハードウェア”と組み合わせることで、ログの書き込みを10分に１回程度に減らすことができる」
    となっていました。
    
    PostgreSQL で「ログが物理的に書き込まれるまで待つか否か」ってオプションがあったことでも
    「ログの書き込み」が Database での影響の大きい速度のボトルネックの一つだということがわかります。
    
    で、WinFS は変な期待されたり、実装が遅れたりしていただろうところへ
    横槍(デフラグソフトのメーカあたりが文句を言った)が入ったりで
    Native なファイルシステムであることをあきらめたが、
    上記の「ログの書き込みを減らす」という方向は NTFS の機能としてそのまま実装がすすめられ、
    Flush と HDD を組み合わせた Hybrid型HDD とかを提案したりした経緯を経て
    現時点では Windows ReadyBoost みたいな機能になっています。
    形式にとらわれない形、といっても個々のフォーマットに応じた解析はするわけですから、これは疑問ですね。おそらく、RDBに乗っけることの出来ないような情報は、現在のインデックス付けでは効率化できないでしょう。
    
    僕は「googleデスクトップ」とか「属性や構文レベルをぶっとばして全文検索で字句レベルでマッチさせるようなエンジンの方が現時点では一定の成果を上げている（= ある種の効率化を達成している）」と考えています。
    ファイルシステムにとってはRDBMSが要求するような信頼性やトランザクションを必要としないですし、
    
    う～ん、この点は必ずしも正しくないとおもいます。OS の文化の違いかもしれないですが。
    単純にデータとしてみるなら、RDB に載っているデータだけが大事ということはないと思います。
    
    そして、Windows では Volume Shadow Copy や Distributed File System、Cluster などの機能が
    NTFS の信頼性やトランザクション性能に強く拠っているとみとれます。
    
    --
    マクロの基本は検索置換(by y.mikome)
    
    シェア
    
    親コメント
    - Re:Database とファイルシステムの統合で期待するべきこと (スコア:1)
      
      by L.star (163) on 2008年02月23日 20時08分 (#1302429) ホームページ
      
      実際、WinFS が高速になる理由の説明として「”対応するハードウェア”と組み合わせることで、ログの書き込みを10分に１回程度に減らすことができる」
      
      別にこれは「ログを統合したから」という話では全然無くて、最初から
      Flush と HDD を組み合わせた Hybrid型HDD とかを提案したりした経緯を経て
      
      を意図した発言じゃないですか？
      PostgreSQL で「ログが物理的に書き込まれるまで待つか否か」ってオプションがあったことでも「ログの書き込み」が Database での影響の大きい速度のボトルネックの一つだということがわかります。
      
      ログは同期書き込みである必要があるため、DBのボトルネックの一つなのはその通りです。でも、PostgreSQLには歴史的な経緯としてそんなオプションありませんでしたよ？
      "fsync=off"はあらゆる同期書き込みを非同期に置き換える、であって、ログを意味していません。そもそも、ログのない時代の、あらゆる書き込みが同期だった頃の名残です。非常に紛らわしいオプションなのですが。
      8.3で追加されたやつのことを言っているのなら、信頼性と性能のトレードオフがユーザーに選べるようになったという点で好ましいと思います。過去形で語られるような内容では無いと思いますが。
      僕は「googleデスクトップ」とか「属性や構文レベルをぶっとばして全文検索で字句レベルでマッチさせるようなエンジンの方が現時点では一定の成果を上げている（= ある種の効率化を達成している）」と考えています。
      
      本当に単なる機械的全文検索だったら、"Recieved"とか"Subject"で検索するとあらゆるメールヘッダが引っかかってどうしようもないと思いませんか？そんなソフトだったら到底使いものになると思いません。
      あれはプラグインを使って個別に属性レベルの解析をしているわけであって、必ずしも構文とかそういうのを無視しているわけではないと思いますが。ただ、それをファイルシステムに集約するか、裏でアプリケーションとしてやるかの違いではないでしょうか。ただの機械的全文検索だったら、googleデスクトップのようなツールは見向きもされなかったと思います。
      単純にデータとしてみるなら、RDB に載っているデータだけが大事ということはないと思います。
      
      いえ、大事か大事でないか、ではなく、どの程度の信頼性を求めるかです。
      トランザクショナルなRDBMSは、それが前述されたとおり「ログの書き込みがボトルネック」であることを知った上でも、要件として単なるクラッシュからのトランザクション保護を強固に行います。一方で、たいていのジャーナリングファイルシステムは高々fsckしなくて済む程度にしかしません。性能面を考えれば当然の妥協だと思います。
      
      シェア
      
      親コメント
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        全文検索エンジンと
        RDB(きめうち検索エンジン？)とは
        住む世界が違いますよね。
        
        RDBにゃ「スキーマのメンテナンスをガチでキメないと、性能どころか論理(データ辻褄)的にも瓦解する」というナイーブな面があります。
        正規化とかですね。
        しかも変更があった場合も常に正規化とかをきっちりやり「つづけ」ないとならない。
        
        それを受け入れてでも性能やカッチリさが欲しい！という場面では、RDBを使ったほうが得。
        受け入れにくい状況なら全文検索のほうがきっと強い。
        
        「あれーあのデータどこに有ったっけ？」
        なんてほざくかたがた(ｗ)に対しては、
        それが所謂業務であろうがなんだろうが、

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

MySQL＋FUSEでファイルシステムを実現するMySQLfs More ログイン

「MySQL＋FUSEでファイルシステムを実現するMySQLfs」記事へのコメント

Database とファイルシステムの統合で期待するべきこと (スコア:4, すばらしい洞察)

Re: (スコア:2, 参考になる)

Re:Database とファイルシステムの統合で期待するべきこと (スコア:1)

Re:Database とファイルシステムの統合で期待するべきこと (スコア:1)

Re: (スコア:0)

スラド