0
私はApache Sparkを学んでいます。 CSVデータをデータフレームにロードしています。これには約5分(多くのデータ)がかかります。私がspark-shellを終了してspark-shellに戻ってログすると、データはなくなります。これは正常な動作ですか?私はこの文書で何も見つけられません。どのようにしてセッション間でデータを保持できますか?スパークシェルを終了すると、すべてのデータフレームデータがなくなります。これは正常ですか?
は、健全性チェックをありがとう! – rastacide
なぜ 'collect'を呼び出すことをお勧めしますか? DataFrameを元に戻したい場合は、 'spark.read.parquet(" outputfile.parquet ")' –
を使用します。このスニペットをコピーすると、この小さな例で動作することがわかります。私は大きなデータフレームを収集すべきではないことを知っていることを願っています:) – geoalgo