私はCassandraを使用してデータを保存し、データを処理するためにハイブを使用しています。 私は5台のマシンにキャッサンドラと2台のマシンを設定しています。(ハイブが走っている)分析ノードとして使用しています。 2台のマシン(アナリティクスノード)でハイブを減らしてデータを取り込みますか?プロセス/計算を5つのcassandraノードに移動し、それらのマシン上のデータを処理/計算します(私が知っているのは、ハーフープにあり、プロセスは処理するデータではなくデータに移動します)。Hadoop on cassandraデータベース
8
A
答えて
16
HadoopとCassandraとの結婚に興味があれば、最初のリンクはこのコンセプトに基づいて構築されたDataStax社です。 http://www.datastax.com/ HDFSをhadoopに置き換え、cassandraに置き換えました。私の理解の最高で - 彼らはデータの局所性を持っている:http://blog.octo.com/en/introduction-to-datastax-brisk-an-hadoop-and-cassandra-distribution/
あなたはあなたの質問についてはカサンドラ Cassandra and MapReduce - minimal setup requirements
に対してのMapReduceを実行する場合のHadoop &カサンドラデータの局所性についての良い答えがある - tradeofがあります: a)別のノードでHadoop/Hiveを実行すると、データの局所性が失われ、データスループットがネットワーク帯域幅によって制限されます。
b)cassandraが実行されているノードと同じノードでhadoop/Hiveを実行すると、データの局所性が得られますが、ハイブクエリの背後にあるMapReduce処理がネットワーク(およびその他のリソース)を塞ぐ可能性があり、
あなたの提案は、あなたのcassandraクラスタのパフォーマンスが重要である場合、別のハイブノードを持つことです。
あなたのcassandraが主にデータストアとして使用され、リアルタイム要求を処理しない場合、各ノードでハイブを実行すると、パフォーマンスとハードウェアの使用率が向上します。
関連する問題
- 1. Spark + Cassandra on EMR LinkageError
- 2. PiG + Cassandra + Hadoop
- 3. Cassandra ttl on row
- 4. Cassandra on Mesos
- 5. Hadoop instalation on windows
- 6. NandPointerException on cassandra ThriftServer stop
- 7. Java対Python on Hadoop
- 8. Akka persistence cassandra NoSuchMethodError on sturtup
- 9. Cassandra for datawarehouse
非常に役に立ちました –