パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

ヒトゲノム全体を最速4秒で検索する新システム」記事へのコメント

  • by Anonymous Coward
    最速約4秒って悪い意味に誤読してしまいました。ワーストケースについてはリリースでも触れられていませんが、専門家にとってはどんなものなんでしょうか?
    • Re:見出しで誤読 (スコア:2, おもしろおかしい)

      by Anonymous Coward
      実は線形検索で、初期化に4秒かかるだけだったりして
      • by Anonymous Coward
        うちの顧客情報(顧客マスタ50億件)は*最速*2秒くらいで検索できますよ
        4秒?全然遅いじゃん(嘲笑)

        # 最速じゃなくて平均値言ってみろよ、と思うAC
        • Re:見出しで誤読 (スコア:1, 参考になる)

          by Anonymous Coward
          ゲノムのデータ構造って四種類の文字がずーーーーっと並んでるだけで、
          index化しづらいデータ構造な気がするんですが。
          こういうのってトークンに区切れる文章や、一般的なRDBに対するクエリと全然種類が違うと思うんですが、どうなんすかね。
          そんな簡単に比べられるんですかね?
          • by Anonymous Coward
            この分野には、素人ですが、同じような文字が並び続けるという意味では、辞書式の圧縮みたいな感じでインデックス化できそうですよね。そういう意味では、意外と検索はしやすいような気もしますが。
            識者の方、間違っていたらご指摘ください。
            • by Anonymous Coward on 2006年08月14日 16時15分 (#996455)
              辞書式なやり方としてはsuffix arrayを使ったインデックス化などが既にありますね。
              ただし、ゲノム検索の目的はexact matchを求めることではなく、
              # このため、インデックス化をいかに効率よく実現しても、顧客情報の検索のようにはうまく行きません
              ある類似度を基準としたmatchingなので、データ構造以外のアルゴリズムも速度と精度を高める上で重要です。 より早く、より高い感度で、が求められてる世界ですね。
              親コメント

アレゲは一日にしてならず -- アレゲ研究家

処理中...