2017-10-30 5 views
1

現在、3つのSparkノードを実行しているプロジェクトがあります。私たちはスパーク労働者をスケールアウトしたい。しかし、各スパークノードをCassandraノードの上で動作させるには、CPU /メモリの使用量が非常に高価です。私の質問は、Cassandraを使用しないでDataStaxでSparkワーカーを導入することが可能なのでしょうか?DataStaxを使用してCassandraなしでSparkワーカーを導入することは可能ですか

答えて

1

通常、各カサンドラノードにはデータローカリティを優先するためにスパークワーカーを配置します(可能であれば、スパークワーカーはローカルノードに優先順位を付けます)。あなたはもちろんのサブスクリプションを持っている場合

  1. は、直接DSEのサポートを確認する:あなたは本当にカサンドラサービスから火花サービスを分離したい場合 はしかし、あなたはいくつかのオプションがあります。
  2. 新しいノードに新しいspark-workerを配置し、既存のspark-masterに接続するように設定します。基本的に、spark-slave.shを起動します。正しく実行された場合、これはうまくいくはずです。もちろんDSEとの統合に関する問題がありますが、試してみる必要があります。ファイアウォールルール、DNS解決などを管理する必要があります。もちろん、この新しいノードに割り当てるCPUとRAMの数を手動で設定する必要があります。
  3. DSEからapache-sparkを完全に分離する=> Cassandra-DSEのみを使用し、3つのCassandraノード+追加ノードにApache Sparkをインストールします。それは確かに機能しますが、spark-masterの設定、HAが必要な場合の処理​​、DSEとApache Spark間のRAM割り当てを正しく分割することなど、いくつかの作業があります。必要に応じてあなたを助けることができるカサンドラのコンサルティング会社のヒップがあり、instaclustrはその一つです。

幸運!

+0

ありがとう、非常に有益です。 – qubit

関連する問題