kahoの日記 | スラド

kahoの日記：終わりに代えて〜STAP論文調査委員会NGSデータの公開を求める一提案〜 20

日記 by kaho 2014年12月27日 0時49分

私事によりここ数日は休暇を取り多忙であったため出遅れてのコメントになります。
そのつもりはなかったのですがこちらでの発言に対して匿名での（卑怯な）告発扱いをされたこともあり最近は実名でTwitter(@caripso)での発言だけにしていました。今回こちらに書くのは140文字では収まらないからですが，色々騒がせてしまったこともありこのアカウントはこのエントリで最後にしようかと考えているところです。

私は調査委員会そのものに呼ばれたことはなく，解析も担当していないため発言には制約を受けないと考えますので思うところを述べていきます。以下の発言は組織とは全く関係なく，私一個人の意見です。

調査報告書に示された残存サンプルの解析は情報量も解析内容も膨大かつ詳細で，感嘆せずにはいられませんでした。
関係者の皆様のご苦労をねぎらうとともに感謝を捧げたいと思います。

一方で，調査対象になった著者のうち事実と異なることを述べたのは誰か，という断定は出来る限り避けたいという意図があったように思えました。取得したデータのうち，内容を伏せている部分，論文と証言が明らかに矛盾することに触れていない部分があるからです。また科学的な証拠が不十分な点も散見されたと思っています。
時間が取れず読み込みが不十分で誤解もあるかと思いますし，質疑応答で取り上げられた部分もあるとは思いますが，報告書のみを見て私の専門に関係する部分で思うところを記します。

第一にNGSデータへの適用について。
16ページ2-3-1-2 3)において，残存していたChIP-seq inputからSTAP細胞として持ち込まれた細胞がES細胞に類似していることが示されています。STAP細胞は幹細胞化を行っておらず，増殖もほぼ起こらない細胞ですから「誰が」ES細胞をSTAP細胞と偽って解析に持ち込んだかは容易に分かると思います。この点について証言もなく，評価でも触れられていないのは残念です。

第二に16ページ，2-3-1-2 4)において，論文には用いられていない未登録RNA-seqデータとはどのような結果で，Letter Fig.2iは再現できないとはどういう意味かということです。
報告書には細胞の遺伝的背景のみが書かれていますが，遺伝子の転写パターンがどうであったかについての記載がなく，「データを取捨した…小保方氏と笹井氏」がどのようなデータを見て，どう考えたかを推測することができません。
詳細な内容を記述するより，細胞名とデータそのものを公開していただきたいと思います。
またRNA-seqは2012より行われていたと書かれていますが，2012年末から論文作成に参加されたという笹井先生が「取捨」に関わったのがいつのことなのか，また決して安くはないRNA-seqの費用がどこから出ていたのかも調べて公開していただけたらよかったと思いました。

第三に，スライド10ページ目の図です。
この図の説明は粗雑にすぎると思います。「同一といえるほど酷似」というのは明らかな言い過ぎであり，定量的な情報も示されていません。
例えば父親であるB6および母親である129において多型があり，同じ親から生まれた同腹のマウスであればここで示されたような類似（３染色体の一致）は十分あり得ます。
精力的に解析された方々に注文をつけるようで心苦しいですが，このように言う理由は公開NGSデータから私もどうようの特徴を既にみつけており，しかし検討の結果決定的なものとは言えないと参考程度にとどめていたことがあります。
B6と129で違いのあるSNPsについて染色体上に並べた解析を行い，ChIP-seq (H3K4me3)，TruSeq，SMARTerで染色体構造について調べていました。
このデータはスライド10ページに言う，第11, 12染色体における特徴的なSNPsの偏りを見つけ，メディアによる取材時にも少し話しましたが，トリソミーを持っていたSMARTer STAPもAcr-GFP/CAG-GFP由来であるのではないかと考えました。しかしこの細胞の親の遺伝型が推測できない以上，この類似性からどこまでのことが言えるのか自身が持てなかったため，単なる推測としてしか話さなかった経緯があります。

また，11ページ目に示したデータはFES1とFES2という２つの細胞の遺伝的関係が示されて初めて意味を成します。
FES1とFES2を，同系統のマウス（岡部研B6マウスと129X1SLCマウス）から得られた別の細胞を外郡として比較し，それらが遺伝的に近いのか遠いのかという基本データがあって初めて意味を成す情報になります。
これを調べるためのデータは既に解読された配列の中に含まれていますので，新たに調べる必要も調査委員会やそれに関わった方々が情報として解析する必要もなく，生データを公開することで明らかになると思います。

最後に感想として驚いたことを。
25ページ目

なお小保方氏への書面調査で、小保方氏はSTAP細胞を作製する際に若山氏から渡されたマウスの遺伝的背景を把握していなかったこと、また、若山氏から(Oct4-GFPを有する)GOFマウスを渡されたものと思っていたことが明らかになった。

この説明は「明らかになった」で済ませることはしてはいけなかったと思います。あまりにも絶句してどう説明してよいか分かりませんが，論文の論理を根底から覆すことになるからです。
その認識が論文出版時まで同じであったとしたら，あの原稿は書けませんし読むことすらできないはずです。
CAG-GFPのSTAP細胞を得たのは，Oct4-GFPの細胞による観察に基づき細胞塊を取得することによって初期化した細胞が得られることを知っていたからというロジックですが，そのロジックを考えたのが筆頭著者ではないということになりますが，論文成立過程についてもっと調査が必要だったのではないかと思います。
本来なら著者間のメールのやりとりを開示させ，論文の成立過程を追うべきだったのではないでしょうか。CDBのメールサーバーには残っているはずですが，なぜそれをしなかったのか。法律家がそれを止めたのだとしたら非常に残念です。

kahoの日記：オオカミ少年 63

日記 by kaho 2014年03月16日 18時35分

STAPの話題は＃５で最後にと述べましたが，少しだけ追加する必要ができましたので補足を．
聞く所によると犯人探しのようなことが起きているようでとても残念です．
今回私が投稿した内容は，神戸でNGS解析を担当した研究者を批判するものでは全くありません．
アップロードされたデータや解析内容から伺えることは，彼らは言われたデータをただとって，言われたように解析したのだろうということです．
外部に対してはプロジェクトの一員としてある程度の責任はあると思いますが，内部的には被害者という側面もあると思っています．恐らくサンプルの細胞名すら聞かされていなかったのではないでしょうか．
本当に彼らが不正な論文に加担しようとしていたのだとしたら，アップロードするデータをいくらでも加工出来たはずですが，ごく正直に，きれいなデータ（このおかげでかなり助かりました）を提供したというのが生データを見た私の印象です．

この論文にかぎらず，インフォマティクスのチームをもっと重視して，実験のデザインや目的を最初から議論し，得られたデータについても「欲しい結果」だけを求めるのでなく，その中から何か更に発見ができないか自由な解析を依頼していたら，問題がある実験は早い段階で明らかになると思います．そして，その中から新しい研究の芽もでることもあるはずです．
私自身は今でも周囲に十分すぎるほど配慮してもらっているのですが，従来的な分子生物学の成果が華やかな研究機関ではインフォマティクスがその陰に隠れがちな印象があります．
NGS解析が身近になった現代の生命科学研究では，彼らに対する敬意が適切に払われるよう期待していますし，今まではこの種の技術に馴染みのなかった研究者の方々にも，インフォマティクスに興味を持っていただけたらと願ってやみません．

kahoの日記： STAP細胞の非実在について＃５ 123

日記 by kaho 2014年03月11日 1時06分

とりあえず論文が撤回の方向に進んでいるようでいくらか安心しました．
真相の解明までいくか分かりませんので，10%程度の安心ですが．
誤解を受けないように明記しておきますと，今日までこの解析を行うにあたって私は一切の圧力も感じませんでしたし，協力してくださった皆さんのおかげで大変助けられました．頭に血が上った上に何の制限もなかったおかげで，周りが見えなくなって大失敗もしましたが．
一段落したことで今回がSTAPについて書く最後になるかと思います．今回の大本のメディアからも問い合わせを受け，本名を出しても構わないと返答しましたので，これからはコメントをするとしても公式な手続きを踏んだものになるかと思います．

”input”の解析でまだここに書いていなかったものとして，CNV（copy number variation）解析を最後に書き留めます．
これはChIP-seqの”input”データという限られた配列でどこまでできるか自信がなかったので，様々な計算方法を試し，基準となりそうなデータを探したりその著者に問い合わせたりして時間がかかる作業でした．
CNVというのは，ゲノム中で生じるコピー数の変化のことで，単純な繰り返し配列が細胞分裂の際に伸びたり縮んだりする現象のことを言います．個体間の差を見る方法として，SNP (single nucleotide polymorphism)がよく知られていますが，それよりもはるかに変化しやすく，同じ個体の細胞でも違いがみられます．

STAP細胞の由来を調べるために，当初私はSNPの違いを見ようとしたのですが，変異が少ないために定量的な評価はできませんでした．SNPがあるように見えてもその配列が正しいかを確定させるためには同じ場所を何回も読んでいる必要があるのですが，”input”はそこまでの量の配列はないので，個々の細胞の配列を決めることも難しいのです．
しかし，ゲノム上に配置された配列をよく見ていくと，多くの場所で配列が多数積み重なっている場所があります．また，CD45+細胞(Oct4-GFP)とSTAP/STAP-SC/ESで違いがあることが分かり，これはCNVを観察しているのだろうと予想しました．ChIP-seqのリード数でもCNVが評価できるのだとしたら，個々の細胞の近縁関係が分かるかもしれないと考え，ここから情報を得るためにいくつかの試行錯誤を行いました．

結果として，以下の単純（≒ロバスト）な方法でうまく行きそうだという感触を得ましたので，非常にテクニカルになりますが，再現実験を試みる人のために記します．

・染色体を50, 100, あるいは250塩基ごとのウィンドウに分割する．
・２つのゲノム間で，同じウィンドウ間のリード数を数える．
・ウィンドウ内のリード数をカウントし，性別が異なってもよいよう，各染色体ごとの総リード数を用いてオッズ比を算出する．また，性染色体は計算から除外する．
・オッズ比の95%信頼区間を計算する．
・オッズ比が１より大きい場合は信頼区間の下限値が２より大きいもの，オッズ比が１未満の場合は信頼区間の上限値が0.5未満のものを「CNVの差がある」区間としてカウントする．
・ただし近接している領域は結合させて１つと数える．
・このCNVの違いを2つの細胞の距離として評価する．

この計算で一定の数字が得られることは分かりますが，そこで得られた距離をどう解釈するかは，別の基準がなければなりません．今回，おおよそリード数が同じ（数割少ない）で，世代をまたいだり同一個体から別組織を得たりしたデータを取得している~~Xiao（3/11 10:13訂正）らの論文(Cell, 2012, GSE36114)~~GSE36294(Chang et al., Cell Res. 2014)（3/11 13:11再訂正）のデータを用いました．著者らにコンタクトを取り（ついでにデータベースから論文へのリンクが貼られていないことを修正してもらい），個々の細胞の由来を聞いた所，1-MEF-iPSからマウスを作成し，2-APC, 2-HPCという細胞をそのマウスから得たことを確認しました．
このデータを使うことで，最初の幹細胞と分化した細胞の変異，体細胞ごとのCNVの違いが分かります．

今回，目立ったCNVが100塩基未満だったこと，50塩基では統計上サンプルが少なくて評価ができにくかったことから，ウィンドウサイズが100塩基の時の計算結果を示します．
結果を示しますと，以下のようになります．どの細胞の組み合わせでもCNVが観察出来ました．

2-HPC* 2-HPC 2-APC 1-MEF_iPS 76 141 255 2-APC 151 160 2-HPC 16 2-HPC*

次に，この手法をSTAP論文のために公開されたデータに使います．この結果は以下の通りになりました．

ESC STAP-SC STAP FI-SC TSC CD45+ 245 270 277 182 669 TSC 420 459 360 371 FI-SC 17 6 17 STAP 0 2 STAP-SC 6 ESC

これまで見てきた通り，CD45+細胞はSTAP/STAP幹細胞/ES細胞とは由来が異なることがこの解析でも分かります．
また，ES細胞とSTAP細胞はCNVに差がなく，ほぼ同一であることが示されました．この近さは慎重な実験をするために，STAPを抽出したマウスからES細胞を作成したとしても説明がつかないように思われます．

どのような原因でこういった結果になったかは特に論評しません．
ChIP-seq実験をするときにサンプルを間違えて，同じ細胞を4回使ってしまったのかもしれません．
著者らが再現実験をするときは，慎重に実験をしていただきたいと思います．

kahoの日記： STAP細胞の非実在について＃４ 74

日記 by kaho 2014年03月08日 8時15分

※以下のエントリは完全に間違いでした．間違いをしたことを隠さないため削除しませんが，主張は過ちであることを注記しておきます．

ここまで私はChIP-seqの”input”を元に解析を行ってきました．
このデータはまだいくつかのことを教えてくれますが，内容がほぼ学術論文のようになってしまうので，遺伝子発現について先に見たいと思います．
今回彼らが公開したNGSデータはChIP-seqとRNA-seqの実験のものです．このうち遺伝子発現を見るのはRNA-seqであり，いくつかの図を示しています．このRNA-seqデータは調べたい内容に対して不適当なほど長い配列を読んでおり，扱いづらい（計算時間がかかる）のですが，今知りたいのは大まかなアウトラインなので先頭の50塩基だけを使った解析を行いました．NGSデータに馴染みのない方には何のことかわからないと思いますが，データの一部を取り出して遺伝子発現について大まかな解析をしてみた，という意味です．

公開データを見ますと，２つの別々の試薬を使ってでRNA-seqを行っていることが分かります．一つはTruSeq，もう一つはSMARTer Ultra Lowです．論文の図に使われているのはTruSeqの方で，SMARTerのデータは公開されているものの論文中では使われていません．
これらはどちらがよいというわけではありませんが，試薬ごとに特性があるので比較する場合は同じ試薬を使った実験同士を比較することになります．TruSeqとSMARTerの違いは，後者は抽出できるmRNA量（≒細胞数）が非常に少ない場合にも対応している，とカタログ上うたっていることです．私の経験でも少量のサンプルしかとれない細胞ではSMARTerの方が適していると思います．

まず彼らの解析結果が再現できるかを確認してみました．TruSeqを使ったデータからそれぞれのサンプルの類似性（ピアソンの相関係数を用いました）を計算し，クラスタリングを行います．RNA-seqデータは細胞の種類ごとに２度ずつ行っており，原論文では細胞の種類ごとに分けていますが，ここではそれぞれ別にして調べました．その結果，同じ細胞のデータはそれぞれ非常に近く，そして論文と同じようにSTAPはCD45+と幹細胞の中間地点に配置され，STAP幹細胞はES細胞に近い位置に配置されました．最初に述べたように大まかな解析ですが，間違った結果を導くほどではないようです．
ちなみに，データベース上の表記では同じサンプルにSTAPと書かれている場合と酸で処理したCD45+細胞と書かれている場合が混在していて正確な条件が分かりません．図の見やすさも考えて，今回はSTAPに統一しています．

次に，論文で使われていないSMARTerのデータを同じく解析してみます．
結果はTruSeqのものと大きな違いがありました．STAPはどちらも桑実胚よりもESに近くなっています．
これらの類似性は驚くほどです．STAPは分裂しない細胞で，得られる細胞は何種類もの遺伝型をもったものの混合であるというのに，２度の実験の両方共がES細胞に近い（相関係数でいうと0.85程度で，STAP同士と同じか上）という結果です．

RNA-seqのクラスタリング図

これは科学的に大きな発見ではないでしょうか．著者らはSTAP細胞からSTAP幹細胞を誘導（？選別？）してその多能性を検証していますが，STAP細胞そのものも，ほぼESのような性質を持っていたのです．酸で処理しただけでよいのだとすればよほど効率も上がりますし，論文の価値も高かったはずです．
著者らはSTAP幹細胞の詳細な作成プロトコルを提出するより，この実験の時のSTAP細胞の作成プロトコルを追求する方がよかったのではないでしょうか．少なくとも，これほどの有望なデータが得られたのに論文で触れないというのは解せません．２度のSTAPの遺伝子発現が２度ともがESに近かったのに．

なぜ彼らはこのデータを使わなかったのでしょうか．
先に述べたようにSMARTerの方が細胞が少ない場合に適しており，増殖能の低いSTAPにはこちらの方が適していると考えられます．なのに，細胞数が必要なTruSeqで別のデータをとりなおし，そちらだけを出版したのは何故でしょうか．

合理的な説明はいくつも考えられます．彼らに問いただしても答えは用意されているでしょう．
従ってこの結果は決定的な証拠にはなりません．ただし，私の仮説には合致するものでした．

※追記
AC氏からの指摘によりExtended Fig 6dで使用されていることに気が付きました．
大変申し訳ありません．再解析と修正を行います．

kahoの日記： STAP細胞の非実在について＃３ 77

日記 by kaho 2014年03月07日 2時41分

残念ながら政治的には勝てそうにありません．
しかしここを読んだ人に誤解していただきたくないのは，私が孤独な戦いをしているというわけではないということです．むしろ話をした方々は全て私に賛同し応援してもらっており，数の上では私の方が圧倒的なマジョリティだと思っています．
科学雑誌の論文は著者全員の同意がないと著者側からの撤回はできませんので，一人でも意見を曲げない人がいれば強制的に撤回させる方法はないのが現在の制度であるのです．

ところでSTAP幹細胞ではTCRの再構成がみられないが，STAPでは見られる，という現在のストーリーですが，前回のTCR領域を見て頂ければ分かりますが，酸で刺激した段階でゲノム再構成はほぼ観察されなくなっています．わずかに含まれるかもしれませんが，殆どの細胞は再構成の起きていない細胞になるはずです．この点，修正を出すなら著者らは説明する必要があるでしょう．STAP幹細胞だけではなく，Oct4-GFPで選別したSTAP細胞でも再構成の有無を調べてもらえればと思います．NGSデータと矛盾しないのなら，恐らく現在出版されているパターンとは異なるものになるでしょうから．

次に，前回のおまけの答え合わせですが，酸による刺激によって性転換が起こるという世紀の大発見というわけではなく，一つの実験として行っているのに，遺伝的なバックグラウンドが揃っていないことを示しています．
前回よりも細かい図でOct4の周辺を見てみるとよく分かります．
Oct4 surrounding sequence

つまり，CD45+細胞だけがOct4-GFPのトランスジェニックマウスで，それ以外は違う細胞を使っています．
調べた所CD45+以外の細胞にもGFPの配列はありました．従って，これらは論文に使われている，恒常的に蛍光を発するCAG-GFP細胞であろうと考えられます．
酸で刺激した細胞が元のCD45+細胞とは違うことを示すための実験なのに，明らかにDNAが異なる細胞を持ってくるというのは実験として大変稚拙で，STAP細胞とCD45+細胞に違いが観察されてもその原因が酸の処理が原因なのか遺伝子の違いによるのかが分かりません．名誉なことに引用していただいた慶応大学の吉村先生ならば「ネガコンとポジコンをしっかりとるのは研究者の基本だ」と叱られるところだと思います．

何故彼らは性別もDNAも違う細胞を使ったのでしょう．
実験というのはお金も時間もかかるものですから，研究の上でやむを得ずそうすることは無いわけではありません．例えばSTAP幹細胞作成の成功率が非常に低いから，わずかにとれたサンプルでしか観察できない，というような場合です．
しかし今回の論文では，CD45+細胞を集めてそれにストレスを与えて，更に数日特殊な環境において，という過程の中で，最も簡単に揃えられるのは最初のCD45+細胞です．その最もコストの安い細胞を，わざわざ他の細胞とは違うものにした上でで実験をして，CD45+細胞とそれを刺激したものは違う，と主張しているのです．性別もDNAも違うのだから，違いがあるのは当たり前なのに．
ここには私の一つの推測がありますが，残念ながら確実な証拠は時間が足りずに掴めませんでした．
政治的な敗北は単なる権力的な弱さゆえでなく，私の力の及ばなかったせいでもあります．

kahoの日記： STAP細胞の非実在について＃２ 80

日記 by kaho 2014年03月06日 4時27分

前回の日記は思いの外反響があり，驚いています．
察していただいた方もいらっしゃった通り，私は件の論文に直接関わる立場ではないのですが，研究所の外から見れば「中の人」になります．
内部では実名でこのような活動をしており，隠れているつもりはありません．内部でどうしても解決できなかった場合は外へ向けて情報を出すでしょうが，それまではできるだけ内部での解決を目指しています．
その目的は迅速な論文の撤回とできる限りの真相の解明がなされることであり，また動機は科学への信頼，研究所への信頼の棄損を許せないことが半分，この状態を曖昧にしておくことで私個人の研究活動も制限を受けかねないのでそれを防ぎたいという私利私欲も半分の動機となります．

科学的な事実を争う立場としては私は間違っていないという自信がありますが，政治的に勝利できるかどうかは全く分かりません．
更にいくつかの証拠をここに書こうと思いましたが，今回の論文の著者らに手の内を知らせずに２の矢３の矢を放たなければならない状況になってきましたので，解析結果をここに書くのは彼らにそれらを突きつけてからという順番になりそうです．
前回の日記で述べた"input"の比較データについては下記のアドレスから閲覧できるようにしました．ここには図を貼れないので，UCSC Genome Browserの力を借ります．
同じデータは公開データを使うことでどなたにも作成できるはずです．

TCR-beta
http://genome.ucsc.edu/cgi-bin/hgTracks?hgS_doOtherUser=submit&hgS_otherUserName=stopstap&hgS_otherUserSessionName=TCR%20beta%20rearrangement%20test

TCR-alpha
http://genome.ucsc.edu/cgi-bin/hgTracks?hgS_doOtherUser=submit&hgS_otherUserName=stopstap&hgS_otherUserSessionName=TCR%20alpha%20rearrangement%20test

また，おまけをつけておきます．これが何を意味するかはいずれわかると思います．
chrX
http://genome.ucsc.edu/cgi-bin/hgTracks?hgS_doOtherUser=submit&hgS_otherUserName=stopstap&hgS_otherUserSessionName=Appendix

kahoの日記： STAP細胞の非実在について 80

日記 by kaho 2014年03月05日 15時10分

なめてますね，これ．
何と言って，理研の対応です．

STAP論文についての手技解説の発表，だそうですが，これは無意味です．
なぜなら，STAP細胞など存在しないから．
間違った書き方をしたとか論文制作の作法のことではありません．「存在しない」のです．
私は証拠も提供しました．しかし，受け入れられなかったようです．

この論文は画像の捏造や文章のコピペ，結果の解釈の間違いなど多数の指摘がされています．
それらは大問題で，問題の大きさとしてはこれだけで論文の撤回があってしかるべきです．が，私はそこはあえてここでは語りません．他の場所で語られているからということもありますが，もっと本質的なこと，つまり「STAP細胞は存在しない」ことを問題にしたいからです．

どうしてSTAP細胞が存在しないといえるのか？
私はこの論文のインサイダーではありません．従って誰がどのように間違いを犯したかどのような意図を持っていたかといったことは分かりません．
しかし，彼らが公開しているデータから彼らの捏造，少なくとも完全な誤りは証明できます．
彼らはそうとは知らず，自分たちの捏造を世界に公開しているのです．

どのデータから？
それは，次世代シーケンサーの生データからです．
今回の論文（２報）のうち片方ではChIP-seqという実験を行っています．そして（本当は論文の公開時にするべきですが）しばらくした後でこの時のデータを誰にでも使えるように公開しました．実験の詳細は省きますが，この実験では対照実験として”input”と称した染色体配列そのものを読んでいます．
これは細胞のDNAの配列がほぼランダムに断片化されて記録されているので，丁寧に見ていくとその細胞がどのような染色体構造を持っているのかが分かります．

彼らの論文ではT細胞を酸で刺激することで細胞の初期化を行ったとしています．
初期化された細胞が，例えばMuse細胞のように，元からあった幹細胞を選別しただけでないことの証拠として，論文ではTCRのゲノム再構成を証拠として提出しています．TCRとはT細胞レセプターのことで，一つの細胞が一つの抗体だけをつくるように切り貼りされるので，T細胞とそれ以外では全く長さが異なってしまうため，ここを見れば一度T細胞になったものかどうかが分かるからです．
奇妙なことにこの再構成がSTAP幹細胞からつくられたマウスでも観察されるかは論文に記載されていません．これを出せ，という意見はかなり早くからありましたが，これまで出していませんでした．

私はこのまっとうな意見に対して「調べる手段はあるよ」と思っていました．それが先程述べた”input”です．
このデータは50塩基ほどの断片なので，再構成されたDNA配列全体は分かりません．しかし，切り取られた配列がなくなるため，「再構成が起きたかどうか」は分かります．
ゲノム再構成とは染色体のある部分が編集されて短くなるので，DNA配列をみるとその部分がなくなってしまいます．
もしSTAP細胞がT細胞からつくりだされたとすると，ES細胞，CD45+細胞，STAP細胞で比較するとES細胞に比べてCD45+細胞とSTAP細胞ではTCR領域のDNAが減っていることが期待されます．
この解析を始めた時，私は軽い気持ちで，実験生物学をやっている人が見つけられないものでも自分ならすぐに分かるという軽い優越感を得ようとしていました．
しかし，結果は驚くべきものでした．
まず，CD45+s細胞はTCRの再構成がわずかに見られます．しかしSTAP細胞，そして低pH環境下においたCD45+細胞では再構成は観察されなかったのです．
これが私の解析が悪いせいなのかと思い，全く異なるT細胞のデータを使って調べましたが，他のデータでは確実にTCR再構成を観察することが出来ました．つまり，STAP細胞はT細胞由来ではなかったのです．
この段階で私は，この論文におけるT細胞の選別が非常に悪く，幹細胞が混ざっていたのではないかと推測しました．しかしそれは甘かったのです．
低pHで処理するとT細胞はほとんどいなくなります．ではなぜSTAP幹細胞ではTCR再構成が起きていることを証拠として提出しているのでしょうか．これは，実験の手技が悪いとか，ミスであるとか，そういう話ではありません．

それもこの”input”の比較によって明らかになります．
その内容は更に長く専門的になるので，また日を改めて書こうかと思います．

kahoの日記： Pogoplug software 0

日記 by kaho 2011年07月12日 20時45分

Pogoplugには興味があったが購入までは至らなかった．（ビックカメラで売っていなかったので）
しかし最近Pogoplug Softwareが公開され，インストールしたところ大変よい印象を持ったので特に必要はないかもしれないがお布施としてPremiumアカウントの購入を行った．
なぜPogoplugを検討したかというとiDiskが来年までしか使えなくなったからだ．
解析データなどはいくつもためておくと数GになるのでDropboxなどのサービスは無料アカウントの範囲で使うことはできない．また，ダウンロードが遅い．
これまではiDiskで共有してファイルを送っていたのだが，iCloudへの移行にともなってiDiskサービスは使えなくなるわけで，代替手段が必要だった．
年会費が必要なサービスは手が出しにくいのでどうしたらよいかと思っていたが，Pogoplug Softwareが問題をほとんど解決してくれた．
共有URLは非常に長く，メールに張り付けると相手がダウンロードできないことがあるので（マイナス記号で改行される）URL短縮サービスを併用しなければならないが，ファイルがローカルにあるので転送は非常に高速だ．共同研究者とお互いファイルサーバーにログインする面倒もない．

MacではPPCに対応しているのもよいし，一度ライセンスを購入すると何台で使用してもWnidows/Macでも流用可能だから$29は高く感じられない．
プレミアムでは動画のストリーミングができるので自宅でPS3相手に試したところ，PS3 Media Serverよりもはるかに容易かつ快適に使用できた．
現在少し問題なのはDLNAのON/OFFがmy.pogoplug.comを通じてでないとできないことで，しかもすぐに見えなくなるので再起動が必要なことだ．
フォーラムではまだスタンドアロンのPogoplugについての話題がほとんどなので同様の問題点は見つからなかったがこの安定性が改善されると嬉しい．

Linux版のPogoplugサーバが使えるなら自宅に省電力のサーバーをおいてiOS機のディスクを空にしたいのだが，現在Windows/Macのみとのこと．
Mac mini (Lion server)が欲しくなる．

kahoの日記：現世代シーケンサー雑感 0

日記 by kaho 2010年03月20日 12時54分

後でもう少しまとめるつもりだが、覚え書き程度に。
2010年になって、第３世代と言われるシーケンサー（DNA解読機）の動向にも以前よりいろいろと変化がある。
現在の状況を簡単に言えばチャンピオンであるIlluminaに対してABが巻き返しを図り、Helicosが局地戦を仕掛けていると言えるだろうか。
Illuminaは最新のHiSeq2000でGenome Analyzerで築いた基盤をより強化している。余談だが成功したシリーズの名前を受け継いでGA IIIといった名称にしなかったのは、この分野が単なるゲノム解読にとどまらずに様々な応用分野を持つようになったためだと思われる。
これに対してApplied BiosystemsはSOLiD 4の導入でこれに対抗しようとしている。特にABが強調するのが解読した配列の精度が高いということで、疾患解析など精度が要求される分野での優位性を強調することで足場を築こうとしている。
また、Helicosはその手法（対象とする配列を増幅しない１分子解読）のため、エラーは原理的に多いのだが、PCRによる増幅を行わないためバイアスが入る余地が少なく、定量性が高いことを強調し、mRNAの観測などでの利点を主張することで生き残りを図っている。
また、pyrosequencingの先駆けであった454 Life Sciencesは、他の手法が20-70塩基の短い配列しか出力できないことに対して200-400塩基単位での解読ができることから、そのような性能が必要な分野では用いられるものの、他の陣営との正面切った競争はできない状況にある。

これとは別に、まだ製品となっていないPacBioのシーケンサーは、原理は誰もが感心するもののモノがいつまでもでてこない。また、全く違う原理を使ったnanoporeによるシーケンサーは、多くの人に応援されているにもかかわらず当初の発想にこだわりすぎて製品化に必要なブレークスルーが果たせないまま危うい状況にある。

個人的な感想を言えば、このままではIlluminaの独走状態が加速しそうな気がする。
ABがSOLiDに対してスループットを上げるために行うことのできる改善点はIlluminaの手法にそのまま適用できるから、両者の差はなかなか埋まらないし、あまり強調されないことなのだが、一定数の断片を読んだときにゲノム上の位置を特定するための計算コストがIllumina>AB>>Helicosだから、出力配列が増えれば増えるほど他陣営はコンピューター資源の方にも投資した上でシーケンサーにより高額のコンピューターをつけて販売しないと対抗ができない。
機械の販売台数がそう多くない特定分野ではスケールメリットが非常に強く働き、下手をすると独占状態にもなりかねない。
この状況があと１－２年でどうなるかは分からない（特にABが開発中の１分子シーケンサーがどうなるか）が、今のトレンドはIlluminaに強い追い風となっている。

kahoの日記： Google Code Jam 2009敗戦記 0

日記 by kaho 2009年09月04日 8時32分

/.Jで紹介されていたGoogle Code Jamに参加してみたが，システムがよく分かっていなかったのでlarge問題の入力ファイルをダウンロードして放っておいた所，時間切れになっていて投稿できなくなっていた．２４時間でやればいいと悠長に構えていた頭の悪さで敗退．
とりあえず自分がやった結果をメモとして記す．あまり長くならないように切り詰めたので読みにくいコードだが，その際にエンバグしていなければ少なくともsmall問題は通過するはず．

A.エイリアンの言語
与えられた辞書に適合する単語の数を数えるもの．（）を［］に置換して正規表現にするだけという書くまでもないプログラムなので省略．

B.水系の区画
土地の高さデータから水の流れる方向を決め，それぞれの区画を出発点とした水流がどこに流れるかを決めるもの．
それほど大きなデータサイズではないので力技でできる．それだけにあまり工夫せず冗長なスクリプトで対処．
N x Mのデータに対して計算量はO(N x M)．

#-*-coding:utf-8-*- def propagate(lat, sinks, H, W, i, j, sink_num): # あるセルがどのsinkにつながるか調べる points = [] while sinks[i][j] is None: points.append((i,j)) l = lat[i][j] north = lat[max(0, i - 1)][j] west = lat[i][max( 0, j - 1)] east = lat[i][min(W - 1, j + 1)] south = lat[min(H - 1, i + 1)][j] if north < l and north <= west and north <= east and north <= south: i -= 1 elif west < l and west <= east and west <= south: j -= 1 elif east < l and east <= south: j += 1 elif south < l: i += 1 else: # 新しいsinkに到着 sinks[i][j] = sink_num sink_num += 1 break for r,c in points: sinks[r][c] = sinks[i][j] #経路を全て塗りつぶす return sink_num def determine_flow(H, W, latitudes): lat = [map(int, line.split(' ')) for line in latitudes] sink_num = 97 # chr(97) = 'a' sinks = [[None] * W for i in range(H)] pattern = '' for i, j in [(h,w) for h in range(H) for w in range(W)]: #流れる先を決定 sink_num = propagate(lat, sinks, H, W, i, j, sink_num) pattern += chr(sinks[i][j]) + '¥n '[j < W - 1] return pattern if __name__ == '__main__': print(determine_flow(4, 5, ('7 1 8 6 7', '8 0 6 5 2', '3 2 3 4 1', '7 5 9 2 3')))

C.特定の文字パターンの組み合わせ数
任意のスキップを入れつつ，あるテキストと同一のパターンをとる経路の数を数える問題．
シークエンスのアライメントを意識しつつ行が目的の配列で列が入力配列のマトリクスを作成し，集計した．
目的配列の長さがN，入力配列の長さがMのとき，計算量はO(N x M^2)

#-*-coding:utf-8-*- def count_variants(text, correct): rows, columns = len(correct), len(text) matrix = [] matrix.append([text[col] == correct[-1] for col in range(columns)]) #最初の行の初期化．末端と適合していれば1 for row in range(1,rows): matrix.append([0 if text[col] != correct[-1 - row] else sum(matrix[row - 1][col + 1:]) % 10000 for col in range(columns)]) pass return sum(matrix[rows-1]) % 10000 if __name__ == '__main__': print(count_variants('wwwelllcome tto code jjjjjamm', 'welcome to code jam'))

追記：特定の入力ファイルがないと何をしているか意味が分からなかったので修正．