大規模データ処理勉強会に行ってきました

大規模データと対峙した事もないのにzusaar.com -&nbspzusaar リソースおよび情報に参加しました。Hadoopに興味はあったけど、未知の事をやり始めるのは割と腰が重くなりがちなので、勉強会で少しでも既知にしてみようと思ったりしました。

感想

Jubatusの発表が一番面白かったです。というのも、他の発表はHadoopの経験があってこそ面白くなりそうな内容だったから。Jubatusのは、理論の解説という事もあって、今後深く知る為の検索キーになりそうな単語がいっぱい入ってて、後で資料を読み返したいです。最近色んな知らない分野に触れてるけど、なんか線形代数の理解が必要になりそうなものが多くて、ちゃんとやっておけば良かったなぁと思ったり。ビッグデータの処理といえばHadoopだと思ってたけど、Jubatusがあるって事を知れたのは良かったです。

ただ、どうも自分のやってみたい事には、HadoopやJubatusは必要ないのかもしれません。Hadoopが流行のワードだった事もあって、データ分析ならHadoopなのかと思ってましたが、これらはビッグデータを分散で処理する事が主目的のようです。ビッグじゃないデータを分析するなら、そこに必要な道具はHadoopじゃないっぽい。懇親会で聞いてみたら、大規模じゃないデータを処理する場合でも、使えるようになるのも合わせてHadoopを使って処理するのもありという様な話も聞けましたが、もう少し自分がやってみたい部分とそれに必要なものを調べたりしてみようと思ってます。大規模は置いといて、データ分析/データ解析はやってみたくて、それを可視化してみたいというのが、今のところの興味です。

Hadoopをより使いやすくする為のフレームワークやツールが、沢山あるみたいです。ちょうどHadoopを中心に据える様な位置関係で、色んなジャンルの道具が揃ってきているんだとか。Clouderaという会社の製品もそういうツール群のようで、Cloudera ManagerというブラウザからHadoopを管理するツールなんかもあり、オープンソースではないものの50ノードまでは無料で利用出来るらしい。初心者はHadoopの設定ミスでハマるよりは、Cloudera Managerを使って慣れた方が良いよと、Clouderaの中の人が発表中に言ってました。

雨によるレイテンシ増加→pizza waitが大変なことになっている現地

http://twitter.com/#!/zembutsu/status/144758353648812034

大規模ピザを分散して高速処理するtaskが待っている会場

http://twitter.com/#!/sgwr/status/144754376278413313

懇親会のピザが雨で遅れて、こんな冗談がハッシュタグで飛び交ったりしてました。あと、大規模データ処理とか経験なさ過ぎて懇親会どうしようかと思ってたけど、知ってる人が話しかけてくれたのであんまりぼっちにならずに済みました。

発表資料

発見できた範囲で、勉強会での発表資料へのリンクです。抜けてる資料のURLが分かったら教えてください。

「ライフサイエンス分野の大規模データ・現場での課題とこれから」

Large-scale data in life science

「Jubatusにおける大規模分散オンライン機械学習

Jubatusにおける大規模分散オンライン機械学習
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011

二つ目は今回の発表資料ではないけど、関連する線形分類器の詳しい資料だそう。

Hadoopの将来とClouderaの方向性」

http://www.cloudera.com/resource/hadoop-troubleshooting-101-japanese-version

2名で別々の発表だったんですが、前半の発表資料は発見出来ず。

Hadoop World 2011報告」

発見出来ず。