0
私は現在、rdd.count()関数を使用する単純なスパークスクリプトを作成しています。Spark - 組み込みのrdd.count()関数はクラスタ内で信頼できますか?
マルチマシンクラスタにコードをデプロイすると機能し続けますか、この機能は分散計算の問題に脆弱ですか?
私は現在、rdd.count()関数を使用する単純なスパークスクリプトを作成しています。Spark - 組み込みのrdd.count()関数はクラスタ内で信頼できますか?
マルチマシンクラスタにコードをデプロイすると機能し続けますか、この機能は分散計算の問題に脆弱ですか?
これはMapReduceのワードカウントのようなものです...データのパーティションを分散し、その数を合計します。
質問に答えるには、分散環境でうまく動作するはずです。
なぜそれが機能しないと思いますか? –
この特定のケースではうまくいくことを示唆する文書には何も見つかりませんでした。しかし、分散マシン上で実行されるカウント操作を同期させるためにアキュムレータが必要であることを示唆する非常に多くの文書があるので、それらを使用するかどうか検討する必要があります。 –
これは、任意の分散フレームワークの目的です。マルチマシンクラスタで動作する必要があります。 Sparkのフォールトトレランスアーキテクチャのおかげで、故障しているクラスタ内で作業しているかどうかを心配する必要はありません。彼らは仕事をしています。 –