2
私は非常に大きなpysparkデータフレームを持っています。だから私はそれのサブセットの前処理を実行し、hdfsにそれらを保存したいと思う。後で私はそれらのすべてを読んで一緒に合体したい。ありがとう。pysparkデータフレームをHDFSに書き込む方法と、それをデータフレームに読み込む方法は?
私は非常に大きなpysparkデータフレームを持っています。だから私はそれのサブセットの前処理を実行し、hdfsにそれらを保存したいと思う。後で私はそれらのすべてを読んで一緒に合体したい。ありがとう。pysparkデータフレームをHDFSに書き込む方法と、それをデータフレームに読み込む方法は?
DataFrameからHDFS(Spark 1.6)を書きます。
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
フォーマットオプションのいくつかは、csv
、parquet
、json
等HDFS(1.6スパーク)からデータフレームを読み取る
あります。
sqlContext.read.format('parquet').load('/path/to/file')
formatメソッドは、などparquet
、csv
、json
として引数をとりねえ、私はattributErrorを得る:DataFrameWriter CSV 'オブジェクトには属性がありません'。 また、後でそのデータフレームを読む必要があります。これは、私が新しいsparkセッションで考えると思います。 – Ajg
あなたのスパークのインストールのバージョンは何ですか? –
spark version 1.6.1 – Ajg