パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

地球シミュレータを使おう」記事へのコメント

  • GenBank [nih.gov]の全塩基配列データから今あるデータ分の全生物の系統関係を推定。
    個人的にはこれ。ま、地球シミュレータのパワーでも足りない気がしますが、地球シミュレータのパワーでどこまでできるのか、には興味があります。
    ちなみに、
    4種で3
    5種で3x5=15
    6種で3x5x7=105

    100種で1.700459e+182
    の系統樹があり得ます。
    得られている塩基配列データから各系統樹の尤度(=その系統樹においてその塩基配列が実現する確率、その系統樹の良さを表す)を計算して比較するわけですね。
    まぁ全樹形探索は不可能と言っていいので局所探索とショットガンでやることになると思いますが。
    ちなみに
    • マジレスします。
      組み合わせの数が膨大であるのはその通りなのですが、それらを総当たりでやらなければならない必要性はありませんよね。
      逆にそんな総当たりは非効率なアルゴリズムというもので、ちゃんと枝切りをすべきです。
      今更類人猿の系統樹からヒトだけを抜き出して昆虫の分類に入れて計算させる意味はありませんから。

      それどころか、よく用いられる最尤法で系統樹を決める方法は本質的に組み換えを考慮していないので、半数体でない生物ではミトコンドリアくらいにしか使えません。
      更に困ったことに最尤な樹形が得られたとしても、その樹形と殆ど同じ尤度の樹形も無数に存在しているので、それが正解だと言うことはためらわれます。
      という前提があるので、私は計算時間とサンプル数があればという分子進化の研究者の話は話半分に聞いています。

      >1種1個体としても全樹形探索は絶望的な数ですね。1樹形の尤度最大化だけでも猛烈に重いでしょう。

      1樹形に固定したら最大化は必要ないかと。一つの樹形の尤度計算はO(N)なので重くもないと思います。(多分おおまかな部分は固定した後の最適化のことをお話しだと思いますが)
      そして尤度計算に必要なのは猛烈な樹形の生成とlog(x)の足し算になるので、ベクトル計算の出てくる余地はかなり少ないでしょう。
      こういう計算にはESよりもクラスタ型の方が似合うと思います。
      --
      kaho
      親コメント
      • >総当たりでやらなければならない必要性はありませんよね

        だから局所探索とショットガンと言ってるんですが。
        それと、「必要性は無い」ということを客観的に判断する方法は存在しないことも考慮すべきです。現状の分類体系は全く当てにはなりません。現実的には局所探索を行うしかありませんが、そういう先入観が本来できるはずの発見を阻害するものです。

        >最尤法で系統樹を決める方法は本質的に組み換えを考慮していないので、半数体でない生物ではミトコンドリアくらいにしか使えません

        そんなことはありません。組み換えが考慮されてなくても塩基置換の情報価値が変わるわけではありません。得られる系統樹が種でも個体でもなく遺伝子の系統樹であることを忘れなければ問題ありません。1種1個体だと祖先多型や過去の遺伝子浸透があった場合などにやばいことがあるのは確かですが、それらが問題となるのはミトコンの方が深刻です。もちろん、その場合も母系の系統樹としては間違っているわけではありませんけど。
        組み換えや祖先多型・遺伝子浸透は系統樹の解釈時に考えることであってデータからの系統推定の際に問題となることではないと私は認識しています。

        >最尤な樹形が得られたとしても、その樹形と殆ど同じ尤度の樹形も無数に存在しているので、それが正解だと言うことはためらわれます

        そのための検定法(KH・SH・AU検定・パラメトリックブートストラップ)がいくつかあります。系統樹から何らかのシナリオを引き出す際には本当にその樹形を採用していいのかをそれらの検定方法で確認します。もっとも、この場合には樹形を絞り込んで比較を行うので、それで十分なのかは常に注意を払う必要があります。

        >計算時間とサンプル数があればという分子進化の研究者の話は話半分に聞いています

        その点は私も同様です。そういう人ほど、サンプル数さえ多ければ解析方法はどうでもいいと思っていると思われるフシがあるからです。そういう解析に限って信頼性・不確実性は無視していたり示していなかったりしますしね。だからと言ってサンプル数が大切でないわけでもありません。十分なサンプル数と適切な解析方法の両方が必要だということです。

        >1樹形に固定したら最大化は必要ないかと

        すいません、意味がわかりません。私の元発言の意味は「たとえ局所探索にしても1樹形当たりの尤度最大化にかかる時間だけでもバカにならないからスゲー大変」という意味なんですが。「正解の樹形が一つに絞れたら」という意味ではありません。もっとも、正解の樹形がすでにわかっていても、系統樹の各枝長を知りたいことはあるわけで、その際にはやっぱり尤度最大化を行う必要があるわけですが。

        >こういう計算にはESよりもクラスタ型の方が似合うと思います。

        並列化のしやすさからすればそうでしょうけど、ESだとどれくらいのパフォーマンスになるのかなと思いまして。まぁ破産するのが目に見えているので現状のような有料ならやりませんけど。
        親コメント
        • 恐らく私と同じ地平に立ってお話できていると分かりましたので、半ば感想的に。

          >>総当たりでやらなければならない必要性はありませんよね
          >だから局所探索とショットガンと言ってるんですが。

          N個のサンプルから生成できる樹形数を挙げていたので本当に総当たりかと思っていました。

          >現状の分類体系は全く当てにはなりません。

          これは、どの範囲で言うかに依存するので、全生物でやるよりは論争の残っている樹(の周辺)に限定する方が効率的にも科学的にもよいと思います。MLが本当に他の方法よりよいとは必ずしも言えませんので。
          もちろん全部でやってみたら今まで考えもつかなかった結果が出た、という可能性を否定しませんし、そうなれば素晴らしいですが、そこまで従来法はずさんではないだろうと私は考えていますので。

          >組み換えが考慮されてなくても塩基置換の情報価値が変わるわけではありません。

          多分ここが私と意見が大きく違う部分だと思いますが、一度分岐した枝が合流しないという系統樹推定法の前提に反してしまうので大きな影響があると思います。ヒト、チンパンジー、ゴリラで核遺伝子を用いて系統樹を作成すると、どの遺伝子を使うかによって結果が変わってしまうのもそのせいでしょう。
          ヒトの疾患解析用に組み換えと塩基置換の両方を考慮した手法も提案されていますが、組み換えの起こった場所は教えてくれてもそれから系統樹の推定へは遠いです。別の種まで入れたら全ての場所で組み換えが起きたという結果になるだけでしょうが。

          >>最尤な樹形が得られたとしても、その樹形と殆ど同じ尤度の樹形も無数に存在しているので、それが正解だと言うことはためらわれます
          >そのための検定法(KH・SH・AU検定・パラメトリックブートストラップ)がいくつかあります。

          その通りですが、個人的な感触としてパラメターが多くなるほど唯一の樹形が傑出して輝くことはなさそうだ、と思っています。
          もちろん、これもやってみないと分かりませんが、結構自信あります。(笑)

          >>1樹形に固定したら最大化は必要ないかと
          >すいません、意味がわかりません。

          あ、これは完全に誤解していました。尤度計算一回あたりの計算量の話かと。
          --
          kaho
          親コメント
          • 書いてる最中にFirefoxが落ち、今度はサクラエディタで書き始めたらまた落ちた。メモリ4GBではATOKが入力中のアプリを巻き込んで落ちるもよう。もうめんどいので重要な部分だけ。

            >全生物でやるよりは論争の残っている樹(の周辺)に限定する方が効率的にも科学的にもよいと思います。

            それはもうトレードオフでどうしようもないです。
            ただ個人的には最初から仮説を絞り込みすぎるのは好きではありません。まずは大雑把でもいいので樹形探索してから、それなりのスコア以上の樹形群から仮説選択するようにしたいところです。

            >一度分岐した枝が合流しないという系統樹推定法の前提に反してしまう

            「樹」という形を仮定することが問題だということでしたら、系統「ネットワーク」の可視化に関する研究も進んでいますので将来は多少マシになるかもしれません。
            http://dx.doi.org/10.1080/10635150701286549
            これは組み換えとかを考慮しているのではなくて系統「樹」群からコンセンサス「ネットワーク」を生成する方法ですけども。

            >ヒト、チンパンジー、ゴリラで核遺伝子を用いて系統樹を作成すると、どの遺伝子を使うかによって結果が変わってしまうのもそのせいでしょう。

            そのような問題は組み換えに限らず、遺伝子や系統樹上の枝ごとの分子進化速度の違いによっても生じ得ますし系統学者たちの間ではその効果の方がより重要視されています(私もそうです)。そのようなデータから「種」間の系統関係を明らかにするには、組み換えを考慮することでパラメータをいたずらに増やすのではなく、遺伝子と種内の個体数を増やしていく方が現実的だと思います。その解析方法には改善の余地はまだまだあるでしょうけど。
            私は遺伝子ごとの系統樹と全遺伝子での系統樹を比較することで組み換え(系統学的にはincongruenceと呼ぶことが多い。組み換えと同義ではありませんが組み換えはincongruenceの主要な原因の一つです)を検出することを推奨しています。ただ、遺伝子内での組み換えや、非相同組み換えはこの方法ではどうしようもないです。
            incongruenceに関しては
            http://dx.doi.org/10.1016/j.jbi.2005.08.008
            などを参照。

            >個人的な感触としてパラメターが多くなるほど唯一の樹形が傑出して輝くことはなさそうだ

            おそらくそうでしょう。種数・個体数が増加するほど「似ている系統樹」は増加するので当然かと。樹形空間内の尤度は、大きな山のてっぺん付近に小さな山が複数あるというのが正しいイメージだと思います。しかも山のてっぺんは丸いでしょう。ただ、特定の分岐の信頼性に関しては場合によります。はっきりしなかった分岐順が種数・遺伝子数の増加によって解き明かされた例はたくさんあります。
            親コメント
            • そのような問題は組み換えに限らず、遺伝子や系統樹上の枝ごとの分子進化速度の違いによっても生じ得ますし系統学者たちの間ではその効果の方がより重要視されています(私もそうです)。そのようなデータから「種」間の系統関係を明らかにするには、組み換えを考慮することでパラメータをいたずらに増やすのではなく、遺伝子と種内の個体数を増やしていく方が現実的だと思います。その解析方法には改善の余地はまだまだあるでしょうけど。
              ここが多分私との最大の考え方の違いだと思います。
              私にとっては組み換えというのは進化において本質的かつ頻度の高いイベントで、それを根幹に組み込まないモデルというのは現実を中途半端にしか表していないというのが私の立場です。
              祖先集団で一定の多型があり、それが組み換えを起こすと考えると、塩基置換を中心としたモデルはとても有効には思えませんでした。それが私が分子進化に馴染めず、離れた理由でした。ひどい言い方をすれば、バクテリアとミトコンドリアのための方法論じゃないかと。
              もし組み換えよりも塩基置換を重視したモデルで系統関係が説明ができるのであれば、HapMapで得られているデータのどこを使っても同じような系統樹ができるはずですが、どうもそうではないし、これだけ一様なヒトの集団でそうでならば生物全体の解析などは無理ではないだろうかと思います。

              ただしこれはあくまでも今この時点で私の思う所であって、研究が進歩してそんな疑念を打ち消してしまうような方法や研究成果が出てくれることを期待しているのも事実です。
              --
              kaho
              親コメント
              • 組み換えというのは進化において本質的かつ頻度の高いイベントで、それを根幹に組み込まないモデルというのは現実を中途半端にしか表していない

                統計モデルは推定するためのモデルであって、現実を完璧に表すものではありません。モデルが現実を中途半端にしか表していない方が、目的とする推定には完璧なモデルより適切になり得ます。これは、我々が利用できる情報が有限だからです。より無限に近い情報が得られるならより現実に即したモデルを用いることが適切となります。要は、パラメータの増加というコストに対して見合うだけの尤度の改善が得られるかということでしょう。組み換えを考慮したモデルでは考慮すべき組み換えがほぼ無数に存在し得るので、パラメータが激増して長大な時間スケールの系統推定には使えないでしょう。

                親コメント
              • 誤解を受けてしまったかもしれませんが、組み換えを入れたモデル以外全てを棄却したいということではありません。
                塩基置換で進化を説明するモデルは片肺飛行だと思っていますが、片肺飛行でも飛行機は飛べるようにこのモデルも有効性はあります。
                しかし組み換えの存在を当たり前に受容すれば、従来のモデルでは核遺伝子の進化速度を適切に定められないでしょう。
                「だから現在のモデルが間違っている」とは言いませんし、「パラメターをもっと増やせ」とも言いません。ただ、現状のモデルでは生物の(遺伝子の、でもいいです)進化を表現しきれていないから全生物を入れてもその中途半端なモデルに適合した中途半端な結果しか得られないということです。
                現状の分子進化の手法は、伝統の手法に現実が合わない場合にモデルの限界点を理解するよりも現実を理解する方法を変えようとしているように門外漢からは見えます。

                ある種間の系統関係を知りたいのなら、これだけ大量の配列解析が出来る時代なのだからちまちまとミトコンドリアの配列を読むよりもトランスポゾンや染色体の転位/逆位/欠失を検出し、一つ一つの枝分かれを確定させていく手法でいいだろうと思っています。
                その総計で得られた系統樹が単独のアルゴリズムと短い配列で得られた系統樹より価値が低いということはないと思います。
                でも、私自身、こういう考え方が分子進化学者には人気がないことも理解しています。
                --
                kaho
                親コメント
              • 中途半端な結果しか得られない

                サイエンスにおいて中途半端でない=「完璧な」結果を得る方法など存在しません。我々が得られるのは特定の条件下における「最善の」結果だけです。様々な条件下における最善な結果の蓄積が科学の進歩なのだと思います。

                モデルの限界点を理解するよりも現実を理解する方法を変えようとしているように門外漢からは見えます。

                そういうことを確信犯的にやっている人がいることは否定できないように思いますが、それはどんな業界でもそうでしょう。

                トランスポゾンや染色体の転位/逆位/欠失を検出し、一つ一つの枝分かれを確定させていく手法でいいだろうと思っています。

                既にそういう方向へ進みつつありますよ。つい最近のSystematic Biology誌 [informaworld.com](系統学分野の最高学術誌)でも特集 [informaworld.com]されています。この方法では計算は楽ですがデータ収集のコストが現時点ではシャレにならないのでまだ普及していないだけです。ただこの方法でわかるのは樹形であってその他のパラメータ(枝長とか同義置換・非同義置換比とか)はわかりません。

                しかし著しくオフトピですな・・・。では、とりあえずこの辺で。

                親コメント
              • オフトピであることは承知の上で,私も最後に.

                サイエンスにおいて中途半端でない=「完璧な」結果を得る方法など存在しません。我々が得られるのは特定の条件下における「最善の」結果だけです。
                その通りです.
                ただ,最初の「全生物の系統樹をMLで」という投稿がその前提を逸脱した提案,例えるならニュートン力学だけで宇宙論を語るような話に聞こえたので茶々を入れたのが私の最初の書き込みでした.

                トランスポゾンや染色体の転位/逆位/欠失を検出し、一つ一つの枝分かれを確定させていく手法でいいだろうと思っています。
                既にそういう方向へ進みつつありますよ。
                それが主流になるのであれば私としては喜ばしいです.数年前はなかなか受け入れてもらえませんでした.
                「コストがシャレにならない」ことも理解していますが,それでも今や数年前の1/100になり,時間が解決してくれると期待しています.
                進化を名乗る研究者が(大した目的もなく?)いくつかの生物のゲノムプロジェクトを立ち上げていたコストをまわすのだと思えばそれほど「シャレにならない」わけではないかもしれませんし・・・

                ただこの方法でわかるのは樹形であってその他のパラメータ(枝長とか同義置換・非同義置換比とか)はわかりません。
                枝長についてはまず分岐が確定しないと計算結果を信頼してよいか分からないので,二兎を追うよりまず一匹捕まえる必要があると思います.
                Ka/Ks比についてはこれも組み換えを考えると主流の考え方はちょっと違うのではないかと思っていますが,今は胸の中に収めておきます.
                --
                kaho
                親コメント

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

処理中...