私は複数のストリームで動作するApache Sparkアプリケーションを構築しています。 http://spark.apache.org/docs/latest/streaming-programming-guide.html#performance-tuningスパークストリーミングと高可用性
私は何を取得していないことである:
1)は、ストリーミング受信機は、複数のワーカーノード上にあるか、ドライバのマシンがあるされています
は、私は、ドキュメントのパフォーマンスチューニングのセクションをお読みましたか?
2)データを受信したノードのいずれかに障害が発生した場合どうなります(電源オフ/再起動)
受信者がいるワーカーが殺された場合、ドライバは受信者を再インスタンス化し、新しいワーカーが再びデータの受信を開始します。それは合理的だと思われますが、それはどこかに文書化されていますか? –
@PiotrRあなたはこれを探していると思います(http://spark.apache.org/docs/latest/streaming-programming-guide.html#fault-tolerance-semantics) –