pysparkデータフレームをHDFSに書き込む方法と、それをデータフレームに読み込む方法は？

私は非常に大きなpysparkデータフレームを持っています。だから私はそれのサブセットの前処理を実行し、hdfsにそれらを保存したいと思う。後で私はそれらのすべてを読んで一緒に合体したい。ありがとう。pysparkデータフレームをHDFSに書き込む方法と、それをデータフレームに読み込む方法は？

2017-05-31 Ajg

DataFrameからHDFS（Spark 1.6）を書きます。

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

フォーマットオプションのいくつかは、csv、parquet、json等HDFS（1.6スパーク）からデータフレームを読み取る

あります。

sqlContext.read.format('parquet').load('/path/to/file')

formatメソッドは、などparquet、csv、json

2017-05-31 17:15:02

として引数をとりねえ、私はattributErrorを得る：DataFrameWriter CSV 'オブジェクトには属性がありません'。また、後でそのデータフレームを読む必要があります。これは、私が新しいsparkセッションで考えると思います。 – Ajg

あなたのスパークのインストールのバージョンは何ですか？ –

spark version 1.6.1 – Ajg

答えて