okkyの日記: Big Data Analisys 2
日記 by
okky
今日から一週間、川崎で研修。
「何のための Big Data 解析?」
という項目が、もう「金・金・金金金」で、そりゃ Buzz Word 化するわ感満載。
実態は 『Greenplum 使って、PSQLに入ってるデータを R で解析』 なので、Buzzing な部分である今日の講義の部分はすでに記憶から消失しかかっている…
今日から一週間、川崎で研修。
「何のための Big Data 解析?」
という項目が、もう「金・金・金金金」で、そりゃ Buzz Word 化するわ感満載。
実態は 『Greenplum 使って、PSQLに入ってるデータを R で解析』 なので、Buzzing な部分である今日の講義の部分はすでに記憶から消失しかかっている…
あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー
Oh! EMC (スコア:2)
Re:Oh! EMC (スコア:1)
あー、あんなんじゃないです。
あれは本当の SQL Database として動作する事を目的にしてるじゃないですか。
Greenplum は「トランザくショナルデータベース」じゃないんですよ。いや、そう使ってもいいけど性能悪いし。
そうじゃなくて、Greenplum はよそにあるDBMSを複数のノードに導入して、1つの Query 式をノード間にばらまいて結果を得、それを1つのマスターノードにかき集めてから拘束条件をかけて絞り込んでいく…というのを SQL で書けるよ、というのが目的なんです。
ようするに高速なデータマイニングマシン。
そういう使い方の場合「最初の100個持って来い」のような「順序依存のある query」ってあまりないじゃないですか。データを更新するってのもないし。
ちなみに最近は Hadoop マシンとしての方が売りですね。R とか Python とかのモジュールは Hadoop 側に乗っかるようになってます。
でも、研修で使ってるのは仮想マシン上にインストールした Greenplum なんで、性能なんてボロボロですけどね。
fjの教祖様