2012-01-11 11 views
4

私は試練のcassandra + pigクラスタを設定しようとしています。あなたが豚と一体化するのに必要なように、cassandra wikiは音を立てます。カッサンドラとブタの統合 - ハイドロップはオプションですか?

しかし、cassandra-src/contrib/pigのreadmeは、hadoopを使わずにcassandraで豚を動かすことができるようになります。

hadoopがオプションの場合は、使用しないことで何を失いますか?

答えて

6

Hadoopは、テストするときにのみオプションです。あらゆる規模で何かをするためには、ハープも必要です。

ハングープなしで実行すると、ローカルモードでブタを実行していることを意味します。これは、基本的に、すべてのデータが、実行中の同じブタプロセスによって処理されることを意味します。これは、単一ノードとサンプルデータでうまく動作します。

大量のデータまたは複数のマシンで実行しているときに、ハイドープモードでブタを実行したい場合。あなたのcassandraノードでhadoopタスクトラッカーを実行することで、豚はワークロードを分散し、データのローカリティを使用してネットワーク転送を減らすことで、map reduceのメリットを活用できます。

+0

それは私が知る必要があったものです。ありがとうございました。 – marathon

-1

オプションです。カッサンドラには、豚のLoadFuncとstoreFuncの独自の実装が用意されています。

ハイドープとカサンドラは、さまざまな点で異なります。あなたが何を達成しようとしているのかを知らずに失うものを言うのは難しいです。

+0

HadoopはPigの同時実行に必要です。 CassandraベースのPigはなく、ローカルモードのみです。 – rjurney

関連する問題