アカウント名:
パスワード:
講演視聴せずに書いてますが、大量データの取り扱いで「生命科学研究」特有の問題ってどんなものでしょうか?
いや、データ量だけなら他の分野で従来から巨大データはあったと思うので、分野が文面で縛られてるのはなんでかなと。
大久保公策氏の講演ビデオ(デジタル化した科学のポリシーについての2つの事例報告。20分くらい)のページhttp://symposium.lifesciencedb.jp/IPDS/okubo [lifesciencedb.jp]には、他のジャンルで起きているデータ量の増大例がいくつか上がっています
たとえば、(1)天文学におけるデジタルイメージング機器、(2)生命科学におけるマイクロアレイやシーケンサー、質量分析器、(3)地球科学におけるワイアレスセンシング、(4)気象学におけるシミュレーション計算機などのデジタル機器はマッシブなデータセットを生成します。
私自身は、生命科学を専攻している(いた)ため、他の分野でデータをどう利用しているのかは分かりませんが、一応。
冒頭の高木利久氏の挨拶(6分程度)では、現代の科学の研究スタイルは『仮説型駆動』から『データ型駆動』へと移行していると述べています。一つの仮説を検証するために実験データを取るのではなく、網羅的にデータを取った後に、そこに何か知見を見出すという手法がもっとメジャーになるだろうということでしょうか。個人的には移行しているというよりも、そういう手法の研究室も増えてきているという感じです。バイオインフォマティクスとでもいうのかしら。
つまり、ここで言及しているデータというものは、取ってみたけど、どのくらい知見が搾り取れるかよく分からないものなのです。
今までは他人のデータを引用することがあっても、自分の取ったデータと知見を批判するために使うことが精々だったと思いますが、いいアイデアを思いつき、データを外のDBから引っ張ってきて、解析するだけ(だけじゃないけどさ!)で論文が書けてしまう。業績になってしまう。これでは研究室の所有する実験データを公開することに対して抑圧がかかってしまい、閉塞的な状況を作りだしかねません。大久保氏の場合、薬となる遺伝子の特定をしておられたそうなのでその金銭的価値は高く、当時の法律では禁止されていなかったデータの売買を持ちかけられたとあると仰っていました。
大久保氏の講演の後半では、既存の出版物をキーにデータを整理する方法を思いついたけど、著作権のしがらみで公開できないものになってしまったと仰っています。体系的に知識がまとまっている本のインデックスなどをキーワードに膨大な論文、ドキュメントを分類するというものだと思うのですが、出版社にかけあっても色よい返事が無かったとのこと。公開できないと研究意欲も削がれる、何とかならんのか、というのが著作権の話につながっていきます。
#後のビデオはこれから見ます。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
目玉の数さえ十分あれば、どんなバグも深刻ではない -- Eric Raymond
分野特有の事情? (スコア:0)
講演視聴せずに書いてますが、大量データの取り扱いで「生命科学研究」特有の
問題ってどんなものでしょうか?
いや、データ量だけなら他の分野で従来から巨大データはあったと思うので、分野が
文面で縛られてるのはなんでかなと。
Re:分野特有の事情? (スコア:2, 参考になる)
大久保公策氏の講演ビデオ(デジタル化した科学のポリシーについての2つの事例報告。20分くらい)のページ
http://symposium.lifesciencedb.jp/IPDS/okubo [lifesciencedb.jp]
には、他のジャンルで起きているデータ量の増大例がいくつか上がっています
私自身は、生命科学を専攻している(いた)ため、他の分野でデータをどう利用しているのかは分かりませんが、一応。
冒頭の高木利久氏の挨拶(6分程度)では、現代の科学の研究スタイルは『仮説型駆動』から『データ型駆動』へと移行していると述べています。
一つの仮説を検証するために実験データを取るのではなく、網羅的にデータを取った後に、そこに何か知見を見出すという手法がもっとメジャーになるだろうということでしょうか。
個人的には移行しているというよりも、そういう手法の研究室も増えてきているという感じです。バイオインフォマティクスとでもいうのかしら。
つまり、ここで言及しているデータというものは、取ってみたけど、どのくらい知見が搾り取れるかよく分からないものなのです。
今までは他人のデータを引用することがあっても、自分の取ったデータと知見を批判するために使うことが精々だったと思いますが、
いいアイデアを思いつき、データを外のDBから引っ張ってきて、解析するだけ(だけじゃないけどさ!)で論文が書けてしまう。業績になってしまう。
これでは研究室の所有する実験データを公開することに対して抑圧がかかってしまい、閉塞的な状況を作りだしかねません。
大久保氏の場合、薬となる遺伝子の特定をしておられたそうなのでその金銭的価値は高く、
当時の法律では禁止されていなかったデータの売買を持ちかけられたとあると仰っていました。
大久保氏の講演の後半では、既存の出版物をキーにデータを整理する方法を思いついたけど、著作権のしがらみで公開できないものになってしまったと仰っています。
体系的に知識がまとまっている本のインデックスなどをキーワードに膨大な論文、ドキュメントを分類するというものだと思うのですが、出版社にかけあっても色よい返事が無かったとのこと。
公開できないと研究意欲も削がれる、何とかならんのか、というのが著作権の話につながっていきます。
#後のビデオはこれから見ます。
oh....(オフトピ希望) (スコア:1)
Re: (スコア:0)
データ数(行数)より変数数(列数)の方が大きくなることが多い
っていうことでしょうか。
一般的な統計手法が使えない場合があります。