パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

ヒトゲノム全体を最速4秒で検索する新システム」記事へのコメント

  • by Anonymous Coward
    最速約4秒って悪い意味に誤読してしまいました。ワーストケースについてはリリースでも触れられていませんが、専門家にとってはどんなものなんでしょうか?
    • Re:見出しで誤読 (スコア:2, おもしろおかしい)

      by Anonymous Coward
      実は線形検索で、初期化に4秒かかるだけだったりして
      • by Anonymous Coward
        うちの顧客情報(顧客マスタ50億件)は*最速*2秒くらいで検索できますよ
        4秒?全然遅いじゃん(嘲笑)

        # 最速じゃなくて平均値言ってみろよ、と思うAC
        • Re:見出しで誤読 (スコア:1, 参考になる)

          by Anonymous Coward on 2006年08月13日 22時44分 (#996044)
          ゲノムのデータ構造って四種類の文字がずーーーーっと並んでるだけで、
          index化しづらいデータ構造な気がするんですが。
          こういうのってトークンに区切れる文章や、一般的なRDBに対するクエリと全然種類が違うと思うんですが、どうなんすかね。
          そんな簡単に比べられるんですかね?
          親コメント
          • by Anonymous Coward
            この分野には、素人ですが、同じような文字が並び続けるという意味では、辞書式の圧縮みたいな感じでインデックス化できそうですよね。そういう意味では、意外と検索はしやすいような気もしますが。
            識者の方、間違っていたらご指摘ください。
            • Re:見出しで誤読 (スコア:2, 参考になる)

              by Anonymous Coward on 2006年08月14日 7時28分 (#996135)
              識者ではないですが,
              例えば全体の90%が一致=10%が異なっているのを「高い相同性」という世界です.
              http://www.ddbj.nig.ac.jp/search/archives/blast_doc-j.html [nig.ac.jp]
              MD5のような方法でのインデックス化は無理です.
              親コメント
            • by Anonymous Coward on 2006年08月14日 16時15分 (#996455)
              辞書式なやり方としてはsuffix arrayを使ったインデックス化などが既にありますね。
              ただし、ゲノム検索の目的はexact matchを求めることではなく、
              # このため、インデックス化をいかに効率よく実現しても、顧客情報の検索のようにはうまく行きません
              ある類似度を基準としたmatchingなので、データ構造以外のアルゴリズムも速度と精度を高める上で重要です。 より早く、より高い感度で、が求められてる世界ですね。
              親コメント

コンピュータは旧約聖書の神に似ている、規則は多く、慈悲は無い -- Joseph Campbell

処理中...