アカウント名:
パスワード:
私は専門外ですがkahoさんの説得力ある解析に興味を持って勉強中です.最初にkahoさんが示された方法でTCR alpha, TCR beta付近の数Mbpの範囲をみるだけでも,CD45+だけが特別でES/STAP-SC/low-ph処理の3個はかなりちかい(とくにESとSTAP-SCが近い)というのはクラスタリングでみえました.今回のCNV解析はゲノムワイド調べて,もっと確実に判定したいという方向でしょうか.
TCR alphaはposition=54,000,000付近,TCR betaはposition=41,500,000付近をみるとCD45+だけ下がっていて,このプロットの範囲のデータでクラスタリングするときれいに分かれました.図を4枚添付します.
http://postimg.org/image/tizwl3me7/ [postimg.org]
http://postimg.org/image/8xl4t74tb/ [postimg.org]
http://postimg.org/image/yixct1s0v/ [postimg.org]
データ処理の方法を書いた biochem_fan です。
私のブログを参考に試していただけたのはありがたいのですが、この解析では {STAP, STAP-SC, ESC} 同士の関係は CD45+ との関係よりも近いということは言えるとしても、{STAP, STAP-SC, ESC} が同じ細胞に由来するということを断定することはできません。
depth の低さによるノイズが多いうえ、この近さが C57BL/6 x 129/sv という共通の遺伝的背景に由来するものなのか、それ以上に近いのかという判断できないからです。(CD45+ だけは C57BL/6 純系由来なので、他3つよりも遠くて当たり前)
kaho 氏の方法は、CNV というよりノイズが少ないシグナルに着目したこと、別の文献から継代中に蓄積する CNV の量の見積もりを得たことで、この問題を解決しているように思われます。
kaho さん、すばらしい解析、お疲れさまでした。
コメントありがとうございます.kahoさんの分析は,別の論文のデータをつかって適切なコントロールを得たことがすばらしいですね.CNVに着目してオッズ比の閾値を設定してるところもすばらしいですが,本当にCNVを計測できてるかについては検討が必要かもしれません.統計量の取り方については議論の余地があると思います.
私も、統計量の取り方は少し検討した方がよいと思います。色々なポイントがあると思いますが、例えば以下の点は気になります。ひとつには、オッズ比の95%区間の下限が2を超えて初めて違うとカウントするというこの閾値が妥当かということです。これだと実際は違うのに違わないとみなしてしまう方の誤り確率が高くなりすぎないでしょうか。つまり、距離を過小評価することにならないでしょうか。また、閾値で区切って0か1にしてしまうのも、オッズ比の1からのズレの大きさの情報を殺してしまうのでは、という懸念もあると思います。たとえば、10であっても2.1であっても同じカウントというのはどうか、というものです。提案としては、この閾値、95%とか2とかという値を色々かえてみて、結果に不自然な振る舞い、例えばあるところから急にガクッと距離変化するなど、といったことがないかどうかをチェックすることで有る程度上記の不安を払拭できると思います。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
ソースを見ろ -- ある4桁UID
以前の方法#2でもクラスタリングは分かれてました (スコア:2, 興味深い)
私は専門外ですがkahoさんの説得力ある解析に興味を持って勉強中です.最初にkahoさんが示された方法でTCR alpha, TCR beta付近の数Mbpの範囲をみるだけでも,CD45+だけが特別でES/STAP-SC/low-ph処理の3個はかなりちかい(とくにESとSTAP-SCが近い)というのはクラスタリングでみえました.今回のCNV解析はゲノムワイド調べて,もっと確実に判定したいという方向でしょうか.
TCR alphaはposition=54,000,000付近,TCR betaはposition=41,500,000付近をみるとCD45+だけ下がっていて,このプロットの範囲のデータでクラスタリングするときれいに分かれました.図を4枚添付します.
http://postimg.org/image/tizwl3me7/ [postimg.org]
http://postimg.org/image/8xl4t74tb/ [postimg.org]
http://postimg.org/image/yixct1s0v/ [postimg.org]
Re:以前の方法#2でもクラスタリングは分かれてました (スコア:1)
データ処理の方法を書いた biochem_fan です。
私のブログを参考に試していただけたのはありがたいのですが、
この解析では {STAP, STAP-SC, ESC} 同士の関係は CD45+ との
関係よりも近いということは言えるとしても、{STAP, STAP-SC, ESC} が
同じ細胞に由来するということを断定することはできません。
depth の低さによるノイズが多いうえ、この近さが C57BL/6 x 129/sv という共通の
遺伝的背景に由来するものなのか、それ以上に近いのかという判断できないからです。
(CD45+ だけは C57BL/6 純系由来なので、他3つよりも遠くて当たり前)
kaho 氏の方法は、CNV というよりノイズが少ないシグナルに着目したこと、
別の文献から継代中に蓄積する CNV の量の見積もりを得たことで、この問題を
解決しているように思われます。
kaho さん、すばらしい解析、お疲れさまでした。
Re:以前の方法#2でもクラスタリングは分かれてました (スコア:1)
コメントありがとうございます.kahoさんの分析は,別の論文のデータをつかって適切なコントロールを得たことがすばらしいですね.CNVに着目してオッズ比の閾値を設定してるところもすばらしいですが,本当にCNVを計測できてるかについては検討が必要かもしれません.統計量の取り方については議論の余地があると思います.
Re: (スコア:0)
私も、統計量の取り方は少し検討した方がよいと思います。
色々なポイントがあると思いますが、例えば以下の点は気になります。
ひとつには、オッズ比の95%区間の下限が2を超えて初めて違うとカウントするというこの
閾値が妥当かということです。これだと実際は違うのに違わないとみなしてしまう方の誤り確率が高くなりすぎないでしょうか。つまり、距離を過小評価することにならないでしょうか。
また、閾値で区切って0か1にしてしまうのも、オッズ比の1からのズレの大きさの情報を殺してしまうのでは、という懸念もあると思います。たとえば、10であっても2.1であっても同じカウントというのはどうか、というものです。
提案としては、この閾値、95%とか2とかという値を色々かえてみて、結果に不自然な振る舞い、例えばあるところから急にガクッと距離変化するなど、といったことがないかどうかをチェックすることで有る程度上記の不安を払拭できると思います。