パスワードを忘れた? アカウント作成
13143 story

ヒトゲノム全体を最速4秒で検索する新システム 46

ストーリー by yosuke
Genome Trekってどんな旅になるんだろう 部門より

sillywalk曰く、"バイオマティクス社8月7日付ニュースリリースによれば、同社は全てのヒトゲノム約30億塩基の情報を最速約4秒で検索できるシステム「GenoQuester2」の受注販売を開始しました。GenoQuester2は新たに開発されたゲノム検索専用のハードウェアを搭載し、スパコンを使った従来の検索方法に比べ大幅な高速化とハードウェアの小型化を実現。さらにこれまでの検索アルゴリズムでは検索結果に取りこぼしを生じていたnon-coding RNAのオフターゲット配列検索やパリンドローム配列検索、さらには正規表現による検索クエリ表記などより詳細な配列の検索、絞込み、同定を可能にしました。
大きさは幅23cm×高さ6cm×奥行31cmとA4サイズを一回り大きくした程度で、検索専用ソフトをインストールしたPCとUSB接続します。価格は仕様などによって異なりますが一台数百万円から。製薬会社や大学などに受注販売を行ないます。"

詳細な情報はないが、北海道大学遺伝子病制御研究所の多田光宏助教授の協力で開発したGenoQuesterと同じく、ゲノム配列を記憶させたCAM(Content Addressable Memory)を搭載したハードウェアではないかと思われる。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2006年08月13日 12時32分 (#995844)
    ってないよね。ありえないこともない?
  • by Anonymous Coward on 2006年08月13日 20時47分 (#996011)

    ゲノムの相同性検索ではNCBI BLAST [nih.gov](Debianパッケージ [debian.org])およびその亜流のアルゴリズム・ソフトが業界標準として使われています。同じクエリを投げてどれくらい違うのか知りたいです。

    • "亜流"に含まれるが、現状BLAT [ucsc.edu]が断然早く周囲では標準になりつつある気がする。
    • 確かに、BLASTパッケージの中にmegablastはあるけど、ゲノム配列が対象ならSSAHAとか別の手段を使うんじゃないのかな?BLASTはBasic Local Alignment Search Toolなので、ゲノムのような長い配列を使う場合は必ずしも標準ではないと思うのだけど ...
  • by Anonymous Coward on 2006年08月13日 12時49分 (#995854)
    Genome Trek [hokudai.ac.jp](多田博士のblog)
    Dr.TADAのGenoQuester2直感レポート [hokudai.ac.jp](GenoQuester2の使用写真)
  • by Anonymous Coward on 2006年08月13日 14時54分 (#995908)
    最速約4秒って悪い意味に誤読してしまいました。ワーストケースについてはリリースでも触れられていませんが、専門家にとってはどんなものなんでしょうか?
    • Re:見出しで誤読 (スコア:2, おもしろおかしい)

      by Anonymous Coward on 2006年08月13日 15時42分 (#995924)
      実は線形検索で、初期化に4秒かかるだけだったりして
      親コメント
      • by Anonymous Coward on 2006年08月13日 20時50分 (#996012)
        うちの顧客情報(顧客マスタ50億件)は*最速*2秒くらいで検索できますよ
        4秒?全然遅いじゃん(嘲笑)

        # 最速じゃなくて平均値言ってみろよ、と思うAC
        親コメント
        • Re:見出しで誤読 (スコア:1, 参考になる)

          by Anonymous Coward on 2006年08月13日 22時44分 (#996044)
          ゲノムのデータ構造って四種類の文字がずーーーーっと並んでるだけで、
          index化しづらいデータ構造な気がするんですが。
          こういうのってトークンに区切れる文章や、一般的なRDBに対するクエリと全然種類が違うと思うんですが、どうなんすかね。
          そんな簡単に比べられるんですかね?
          親コメント
          • by Anonymous Coward
            この分野には、素人ですが、同じような文字が並び続けるという意味では、辞書式の圧縮みたいな感じでインデックス化できそうですよね。そういう意味では、意外と検索はしやすいような気もしますが。
            識者の方、間違っていたらご指摘ください。
            • Re:見出しで誤読 (スコア:2, 参考になる)

              by Anonymous Coward on 2006年08月14日 7時28分 (#996135)
              識者ではないですが,
              例えば全体の90%が一致=10%が異なっているのを「高い相同性」という世界です.
              http://www.ddbj.nig.ac.jp/search/archives/blast_doc-j.html [nig.ac.jp]
              MD5のような方法でのインデックス化は無理です.
              親コメント
            • by Anonymous Coward on 2006年08月14日 16時15分 (#996455)
              辞書式なやり方としてはsuffix arrayを使ったインデックス化などが既にありますね。
              ただし、ゲノム検索の目的はexact matchを求めることではなく、
              # このため、インデックス化をいかに効率よく実現しても、顧客情報の検索のようにはうまく行きません
              ある類似度を基準としたmatchingなので、データ構造以外のアルゴリズムも速度と精度を高める上で重要です。 より早く、より高い感度で、が求められてる世界ですね。
              親コメント
  • by Anonymous Coward on 2006年08月13日 12時47分 (#995851)
    >ゲノム検索専用のハードウェアを ってところに少し興味を惹かれますね。他の検索にも使えたりしないのかな?
    • Re:検索専用とは (スコア:1, 参考になる)

      by Anonymous Coward on 2006年08月14日 2時13分 (#996107)
      FPGA+CAM+RAMでしょ。
      ハードはファンシーなものではないと思うし、ゲノム検索以外にも使えると思う。

      ただ、ゲノム検索は単位の細かさ(2bit)や計算量の多さなど、特にFPGA向いているというか汎用CPUに向かない処理なわけで、他の応用でこのハードの優位性がどこまであるかは知らね。
      親コメント
    • by Anonymous Coward
      >他の検索にも使えたりしないのかな?
      遅すぎて使う意味ないかも。
      960Mbase/secってせいぜい0.5GB/secでしょ。
      オンメモリならPCレベルにもなってない。
      • by Anonymous Coward on 2006年08月13日 21時58分 (#996030)
        Mbase≠Mbit。
        日本語で書くと、9億6千万塩基対/秒。
        絵的に描くと、
        ATCGGTTC…
        ||||||||  to 9億6千万pair。
        TAGCCAAG…

        因みに、塩基配列で言う所の検索とは、同一物を探してくるのでななく、類似物を探してくるので、通常のDBと同等に考えてはいけない。ような気がする。

        クエリー配列には余計なギャップが含まれていることもあるし、色々な事情で紛らわしい配列もある。良く分からん配列もある。AともCとも言えぬ配列もある。
        そんなんで色々と大変。なような気がする。

        じゃあ、300Mbase/4秒は早いのか。
        実をいうと、良く分からない。
        私の斜め横に、PCベース(on HDD)のソレがあるのだけれど、私は使ったことがない。
        ただ、前他人が使っているのを見た限りでは、0.4Mbaseの配列検索中にお茶を飲んでいたので、本当はもっとうんと時間が掛かるモノなのかも知れない。
        たまたま、使っている人がその時、お茶を飲みたかっただけなのかもしれない。

        分かりよく言うと、上の説明を読んで、どれだけ記述が確かなのかを960M文字/secで判断するような、まあそんな仕事ですよ。生き物相手ってのは。

        #しかし、曲がりなりにもDB、それも機密性が必要である可能性が高いデータを扱うのに、USBって…。あーた。
        親コメント
        • by Anonymous Coward on 2006年08月14日 0時03分 (#996072)
          > Mbase≠Mbit。
          > 日本語で書くと、9億6千万塩基対/秒。

          A,G,C,T の 4 種類だから、 1base は最大 2bit ですね。
          偏りがあればもっと小さくなるけど。
          親コメント
          • Re:検索専用とは (スコア:1, 参考になる)

            by Anonymous Coward on 2006年08月14日 2時16分 (#996108)
            UとかあるのはRNAでしたっけ?
            undefined的なものもあるわけなんで,
            もう数ビットは少なくともいるんじゃないでしょうか.
            親コメント
            • Re:検索専用とは (スコア:1, 参考になる)

              by Anonymous Coward on 2006年08月14日 12時00分 (#996299)
              データベースに含まれているかどうかはわかりませんが、修飾といって、メチル基がくっついたりするので2ビットでは全然足りません。

              メチル基は特定の遺伝子が使われないようにする目的でくっつけられているのではないかと考えられています。突然変異や世代交代を待たずに使用する遺伝子セットを切り替ているわけです。
              親コメント
      • Re:検索専用とは (スコア:0, おもしろおかしい)

        by Anonymous Coward
        検索とメモリの転送速度の区別が出来ないヴァカハケーン
  • by Anonymous Coward on 2006年08月13日 15時46分 (#995927)
    いう手法が高速化に著しく寄与していると聞いていますが...
    偉い方、解説していただけませぬか?
  • 宣伝? (スコア:0, おもしろおかしい)

    by Anonymous Coward on 2006年08月13日 19時19分 (#995985)
    やめてほしい
  • by Anonymous Coward on 2006年08月14日 1時26分 (#996099)
    よーしこれで俺の頭皮に抜本的対策を可能にする遺伝子を…
  • by Anonymous Coward on 2006年08月14日 6時49分 (#996129)
    詳細が判らないけどDBは自分で作れるんだよね?
    DBの更新サービスってあるのかな?
    検索結果って単に類似配列や Acc No. が出てくるだけ?

     速いとは思うけど単にゲノム上の位置やAcc No. 返されても次の処
    理をしないと情報が得られないならあまり必要ないなぁ。それとも公
    共のDBにリンクとか貼られるのかな? Entrez Gene や Ensembl の
    Contig View とか UCSC Genome Browser とか・・・。
     GenoQuester2直感レポートの情報読むと応用アプリケーションは
    自分で作ったり、これから提供される様に見える。

     そもそも配列を頻繁且つ大量に投げるんだったら別のシステム組ん
    じゃった方が使い勝手良い気がするし、偶にしか使わないなら価格が
    高すぎる・・・。
     2001年頃だったかな、配列解析が今より需要があった時 BLAST
    Machine とかいう高速検索ハードウェアがあったけど今聞かないもん
    なぁ。
    • >詳細が判らないけどDBは自分で作れるんだよね?
      そうじゃないと、使い物にならない…
      >検索結果って単に類似配列や Acc No. が出てくるだけ?
      既出のBLATも、既にそんな感じの出力ですよね…前はblast出力をパーズして、Accessionやscore/identify/gap等の表に落とすの良くやりましたが…
      >応用アプリケーション
      結果を適当なゲノムブラウザに渡す、というのが多そうに見えます。一括処理のために買えるところは少なそうです。
      >高速検索ハードウェア
      PCクラスタでPBS/Gridとか、ブレードサーバでラウンドロビン(ncbiとか?)が多そうですが、そっちはgenomeへのmapとはまた別の仕事で一生懸命働いてくれるでしょう。
  • by Anonymous Coward on 2006年08月17日 13時20分 (#998416)
    /^((([ATGC])([^\1]))+)$/

    ……?

    # 我ながらバカだと思うのでA.C.
typodupeerror

犯人はmoriwaka -- Anonymous Coward

読み込み中...