パスワードを忘れた? アカウント作成
6679580 journal
日記

okkyの日記: Big Data Analisys 2

日記 by okky

今日から一週間、川崎で研修。

「何のための Big Data 解析?」
という項目が、もう「金・金・金金金」で、そりゃ Buzz Word 化するわ感満載。

実態は 『Greenplum 使って、PSQLに入ってるデータを R で解析』 なので、Buzzing な部分である今日の講義の部分はすでに記憶から消失しかかっている…

この議論は、okky (2487)によって ログインユーザだけとして作成されたが、今となっては 新たにコメントを付けることはできません。
  • by tslashn (37583) on 2012年12月05日 22時36分 (#2285273)
    GreenplumってPostgres-XC をプロプラエタリにしたようなものですか? そのなかのデータをRで解析ですとな。 RPostgreSQLにもてこ入れがあったりするんですかいね? # GPLだからパスか?
    • by okky (2487) on 2012年12月06日 1時07分 (#2285355) ホームページ 日記

      あー、あんなんじゃないです。
      あれは本当の SQL Database として動作する事を目的にしてるじゃないですか。

      Greenplum は「トランザくショナルデータベース」じゃないんですよ。いや、そう使ってもいいけど性能悪いし。

      そうじゃなくて、Greenplum はよそにあるDBMSを複数のノードに導入して、1つの Query 式をノード間にばらまいて結果を得、それを1つのマスターノードにかき集めてから拘束条件をかけて絞り込んでいく…というのを SQL で書けるよ、というのが目的なんです。
      ようするに高速なデータマイニングマシン。

      そういう使い方の場合「最初の100個持って来い」のような「順序依存のある query」ってあまりないじゃないですか。データを更新するってのもないし。

      ちなみに最近は Hadoop マシンとしての方が売りですね。R とか Python とかのモジュールは Hadoop 側に乗っかるようになってます。

      でも、研修で使ってるのは仮想マシン上にインストールした Greenplum なんで、性能なんてボロボロですけどね。

      --
      fjの教祖様
      親コメント
typodupeerror

あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー

読み込み中...