私はスタンドアロンクラスタを2人の作業者と使用しています。私はstream.saveToCassandra
コメント場合、それは非常に良いと高速動作するためsaveToCassandraある 利用スパークカフカカサンドラのHDFSストリームスパークワーカーの1人が働いていません
val stream = kafkaUtils.createDirectStream...
stream.map(rec => Row(rec.offset, rev.value)).saveToCassandra(...)
stream.map(_.value).foreachRDD(rdd => {saving to HDFS})
私はカフカに送っ約40000 MSG /秒 最初にすることは、ゆっくりと動作します。スパークドライバUIの 私は5MBの出力には約20秒かかることがわかります。 私はspark-cassandraオプションを調整しようとしましたが、最低14秒もかかります。
10:05:33 INFO remove RDD#
となど
が、私は別のワーカーを停止した場合、それは始まる:
そして第二には、それは私がこのような何かを参照してくださいログインすると、私の1つのワーカーは、何もしないでいることを、私が述べたよりもあります働く
私はちょうどstartSpark extends App {
と穴コード、火花提出使用し、その後、
scala -cp "spark libs:kafka:startSpark.jar" startSpark
と私はssc.sparkContext.addJars(pathToNeedableJars)
私はカサンドラへの執筆をどのようにして、私の労働者を一緒に働かせることができますか?
間の1の対応はまた、それを介して使用spark-shell - master spark://192.168.1.40:7077と:pasteモード。結果も以前と同じで、1つのノードは何もしません –