1

私はスタンドアロンクラスタを2人の作業者と使用しています。私はstream.saveToCassandraコメント場合、それは非常に良いと高速動作するためsaveToCassandraある 利用スパークカフカカサンドラのHDFSストリームスパークワーカーの1人が働いていません

val stream = kafkaUtils.createDirectStream... 
stream.map(rec => Row(rec.offset, rev.value)).saveToCassandra(...) 
stream.map(_.value).foreachRDD(rdd => {saving to HDFS}) 

私はカフカに送っ約40000 MSG /秒 最初にすることは、ゆっくりと動作します。スパークドライバUIの 私は5MBの出力には約20秒かかることがわかります。 私はspark-cassandraオプションを調整しようとしましたが、最低14秒もかかります。

10:05:33 INFO remove RDD# 

となど

が、私は別のワーカーを停止した場合、それは始まる:

そして第二には、それは私がこのような何かを参照してくださいログインすると、私の1つのワーカーは、何もしないでいることを、私が述べたよりもあります働く

私はちょうど

startSpark extends App {

と穴コード、火花提出使用し、その後、

scala -cp "spark libs:kafka:startSpark.jar" startSpark 

と私はssc.sparkContext.addJars(pathToNeedableJars)

を使用する労働者へのconf内でそれを起動していない

私はカサンドラへの執筆をどのようにして、私の労働者を一緒に働かせることができますか?

+0

間の1の対応はまた、それを介して使用spark-shell - master spark://192.168.1.40:7077と:pasteモード。結果も以前と同じで、1つのノードは何もしません –

答えて

1

私は私のトピックのために使用することを私は本当に悪い読ん公式スパークカフカインテグレーションガイド、問題、1パーティション

1:カフカのパーティションとスパークパーティション

+0

Spark 2.1.1、kafka 0.10.2.1 –

関連する問題