パスワードを忘れた? アカウント作成
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。

地球シミュレータを使おう」記事へのコメント

  • GenBank [nih.gov]の全塩基配列データから今あるデータ分の全生物の系統関係を推定。
    個人的にはこれ。ま、地球シミュレータのパワーでも足りない気がしますが、地球シミュレータのパワーでどこまでできるのか、には興味があります。
    ちなみに、
    4種で3
    5種で3x5=15
    6種で3x5x7=105

    100種で1.700459e+182
    の系統樹があり得ます。
    得られている塩基配列データから各系統樹の尤度(=その系統樹においてその塩基配列が実現する確率、その系統樹の良さを表す)を計算して比較するわけですね。
    まぁ全樹形探索は不可能と言っていいので局所探索とショットガンでやることになると思いますが。
    ちなみに
    • マジレスします。
      組み合わせの数が膨大であるのはその通りなのですが、それらを総当たりでやらなければならない必要性はありませんよね。
      逆にそんな総当たりは非効率なアルゴリズムというもので、ちゃんと枝切りをすべきです。
      今更類人猿の系統樹からヒトだけを抜き出して昆虫の分類に入れて計算させる意味はありませんから。

      それどころか、よく用いられる最尤法で系統樹を決める方法は本質的に組み換えを考慮していないので、半数体でない生物ではミトコンドリアくらいにしか使えません。
      更に困ったことに最尤な樹形が得られたとしても、その樹形と殆ど同じ尤度の樹形も無数に
      --
      kaho
      • >総当たりでやらなければならない必要性はありませんよね

        だから局所探索とショットガンと言ってるんですが。
        それと、「必要性は無い」ということを客観的に判断する方法は存在しないことも考慮すべきです。現状の分類体系は全く当てにはなりません。現実的には局所探索を行うしかありませんが、そういう先入観が本来できるはずの発見を阻害するものです。

        >最尤法で系統樹を決める方法は本質的に組み換えを考慮していないので、半数体でない生物ではミトコンドリアくらいにしか使えません

        そんなことはありません。組み換えが考慮されてなくても塩基置換の情報価値
        • 恐らく私と同じ地平に立ってお話できていると分かりましたので、半ば感想的に。

          >>総当たりでやらなければならない必要性はありませんよね
          >だから局所探索とショットガンと言ってるんですが。

          N個のサンプルから生成できる樹形数を挙げていたので本当に総当たりかと思っていました。

          >現状の分類体系は全く当てにはなりません。

          これは、どの範囲で言うかに依存するので、全生物でやるよりは論争の残っている樹(の周辺)に限定する方が効率的にも科学的にもよいと思います。MLが本当に他の方法よりよいとは必ずしも言えませんので。
          もちろん全部でやってみたら今まで
          --
          kaho
          • 書いてる最中にFirefoxが落ち、今度はサクラエディタで書き始めたらまた落ちた。メモリ4GBではATOKが入力中のアプリを巻き込んで落ちるもよう。もうめんどいので重要な部分だけ。

            >全生物でやるよりは論争の残っている樹(の周辺)に限定する方が効率的にも科学的にもよいと思います。

            それはもうトレードオフでどうしようもないです。
            ただ個人的には最初から仮説を絞り込みすぎるのは好きではありません。まずは大雑把でもいいので樹形探索してから、それなりのスコア以上の樹形群から仮説選択するようにしたいところです。

            >一度分岐した枝が合流しないという系統樹推定法の前
            • そのような問題は組み換えに限らず、遺伝子や系統樹上の枝ごとの分子進化速度の違いによっても生じ得ますし系統学者たちの間ではその効果の方がより重要視されています(私もそうです)。そのようなデータから「種」間の系統関係を明らかにするには、組み換えを考慮することでパラメータをいたずらに増やすのではなく、遺伝子と種内の個体数を増やしていく方が現実的だと思います。その解析方法には改善の余地はまだまだあるでしょうけど。
              ここが多分私との最大の考え方の違いだと思います。
              私にとっては組み換えというのは進化において本質的かつ頻度の高いイベントで、それを根幹に組み込まないモデルというのは現実を中途半端にしか表していないというのが私の立場です。
              祖先集団で一定の多型があり、それが組み換えを起こすと考えると、塩基置換を中心としたモデルはとても有効には思えませんでした。それが私が分子進化に馴染めず、離れた理由でした。ひどい言い方をすれば、バクテリアとミトコンドリアのための方法論じゃないかと。
              もし組み換えよりも塩基置換を重視したモデルで系統関係が説明ができるのであれば、HapMapで得られているデータのどこを使っても同じような系統樹ができるはずですが、どうもそうではないし、これだけ一様なヒトの集団でそうでならば生物全体の解析などは無理ではないだろうかと思います。

              ただしこれはあくまでも今この時点で私の思う所であって、研究が進歩してそんな疑念を打ち消してしまうような方法や研究成果が出てくれることを期待しているのも事実です。
              --
              kaho
              親コメント
              • 組み換えというのは進化において本質的かつ頻度の高いイベントで、それを根幹に組み込まないモデルというのは現実を中途半端にしか表していない

                統計モデルは推定するためのモデルであって、現実を完璧に表すものではありません。モデルが現実を中途半端にしか表していない方が、目的とする推定には完璧なモデルより適切になり得ます。これは、我々が利用できる情報が有限だからです。より無限に近い情報が得られるならより現実に即したモデルを用いることが適切となります。要は、パラメータの増加というコストに対して見合うだけの尤度の改善が得られるかということでしょう。組み換えを考慮したモデルでは考慮すべき組み換えがほぼ無数に存在し得るので、パラメータが激増して長大な時間スケールの系統推定には使えないでしょう。

                親コメント
              • 誤解を受けてしまったかもしれませんが、組み換えを入れたモデル以外全てを棄却したいということではありません。
                塩基置換で進化を説明するモデルは片肺飛行だと思っていますが、片肺飛行でも飛行機は飛べるようにこのモデルも有効性はあります。
                しかし組み換えの存在を当たり前に受容すれば、従来のモデルでは核遺伝子の進化速度を適切に定められないでしょう。
                「だから現在のモデルが間違っている」とは言いませんし、「パラメターをもっと増やせ」とも言いません。ただ、現状のモデルでは生物の(遺伝子の、でもいいです)進化を表現しきれていないから全生物を入れてもその中途半端なモデルに適合した中途半端な結果しか得られないということです。
                現状の分子進化の手法は、伝統の手法に現実が合わない場合にモデルの限界点を理解するよりも現実を理解する方法を変えようとしているように門外漢からは見えます。

                ある種間の系統関係を知りたいのなら、これだけ大量の配列解析が出来る時代なのだからちまちまとミトコンドリアの配列を読むよりもトランスポゾンや染色体の転位/逆位/欠失を検出し、一つ一つの枝分かれを確定させていく手法でいいだろうと思っています。
                その総計で得られた系統樹が単独のアルゴリズムと短い配列で得られた系統樹より価値が低いということはないと思います。
                でも、私自身、こういう考え方が分子進化学者には人気がないことも理解しています。
                --
                kaho
                親コメント
              • 中途半端な結果しか得られない

                サイエンスにおいて中途半端でない=「完璧な」結果を得る方法など存在しません。我々が得られるのは特定の条件下における「最善の」結果だけです。様々な条件下における最善な結果の蓄積が科学の進歩なのだと思います。

                モデルの限界点を理解するよりも現実を理解する方法を変えようとしているように門外漢からは見えます。

                そういうことを確信犯的にやっている人がいることは否定できないように思いますが、それはどんな業界でもそうでしょう。

                トランスポゾンや染色体の転位/逆位/欠失を検出し、一つ一つの枝分かれを確定させていく手法でいいだろうと思っています。

                既にそういう方向へ進みつつありますよ。つい最近のSystematic Biology誌 [informaworld.com](系統学分野の最高学術誌)でも特集 [informaworld.com]されています。この方法では計算は楽ですがデータ収集のコストが現時点ではシャレにならないのでまだ普及していないだけです。ただこの方法でわかるのは樹形であってその他のパラメータ(枝長とか同義置換・非同義置換比とか)はわかりません。

                しかし著しくオフトピですな・・・。では、とりあえずこの辺で。

                親コメント
              • オフトピであることは承知の上で,私も最後に.

                サイエンスにおいて中途半端でない=「完璧な」結果を得る方法など存在しません。我々が得られるのは特定の条件下における「最善の」結果だけです。
                その通りです.
                ただ,最初の「全生物の系統樹をMLで」という投稿がその前提を逸脱した提案,例えるならニュートン力学だけで宇宙論を語るような話に聞こえたので茶々を入れたのが私の最初の書き込みでした.

                トランスポゾンや染色体の転位/逆位/欠失を検出し、一つ一つの枝分かれを確定させていく手法でいいだろうと思っています。
                既にそういう方向へ進みつつありますよ。
                それが主流になるのであれば私としては喜ばしいです.数年前はなかなか受け入れてもらえませんでした.
                「コストがシャレにならない」ことも理解していますが,それでも今や数年前の1/100になり,時間が解決してくれると期待しています.
                進化を名乗る研究者が(大した目的もなく?)いくつかの生物のゲノムプロジェクトを立ち上げていたコストをまわすのだと思えばそれほど「シャレにならない」わけではないかもしれませんし・・・

                ただこの方法でわかるのは樹形であってその他のパラメータ(枝長とか同義置換・非同義置換比とか)はわかりません。
                枝長についてはまず分岐が確定しないと計算結果を信頼してよいか分からないので,二兎を追うよりまず一匹捕まえる必要があると思います.
                Ka/Ks比についてはこれも組み換えを考えると主流の考え方はちょっと違うのではないかと思っていますが,今は胸の中に収めておきます.
                --
                kaho
                親コメント

日本発のオープンソースソフトウェアは42件 -- ある官僚

処理中...