私は、リモート上のデータにアクセスし、(pyspark library
を使用して)リモートスパークスタンドアロンクラスタ内で処理を行い、クライアント側で(python 2.7 kernel
を使用して)Jupyterノートブックを展開しています。私はクライアントモードにスパーククラスタを展開しています。 クライアントマシンには、Sparkワーカーノードがありません。RDDまたはSpark SQLデータフレームは、Spark 2.1スタンドアロンクラスタ上でクライアント展開モードで保存または永続化されますか?
クライアントに十分なメモリ(RAM)がありません。私は、クライアントマシンのdf.count()
のようなデータフレーム上でSparkアクション操作を実行すると、はデータフレームがクライアントのRAMに保存されるのか、それともSparkワーカーのメモリに保存されるのかを知りたかったのですか?
クライアントマシンに保存されるデータの量を知ることはできますか?クライアントマシンにデータが保存されないようにするには? –
@SangramGaikwad「保存済み」とはどういう意味ですか? df.count()を使用しても何も保存されません。 –
df.count()は単なる例です。 RDDマッピングや列選択などの操作がある場合はどうなりますか。データフレーム上のデータはどこに存在しますか? –