DataFrameをCSV形式またはパーケット形式(単一のファイル)で保存してから再度開く必要があります。データの量は60Mbを超えないので、単一のファイルは合理的な解決策です。SparkからDataFrameを読み書きする方法
それが存在する場合は、ファイルを読むには:
df = sqlContext
.read.parquet("s3n://bucket/myTest.parquet")
.toDF("key", "value", "date", "qty")
をファイルに書き込むには:この単純なタスクでは、これは私が試したものです...私に頭痛の多くを提供し
df.write.parquet("s3n://bucket/myTest.parquet")
この
1)write
は後で私が.read.parquet("s3n://bucket/myTest.parquet")
で読み取ることができませんhadoopishファイルとフォルダmyTest.parquet
を作成しますので、動作しません。実際には、後でDataFrameに読み込むことができない限り、複数のハイオフッシュファイルは気にしません。出来ますか?
2)私は常に同じファイルmyTest.parquet
で作業しており、S3で更新して上書きしています。それは、ファイルがすでに存在するため保存できないことを伝えます。
誰かが私に読み書きループを行う正しい方法を教えてくれますか?ファイル形式は私にとって重要ではありません(csv、parquet、csv、hadoopishファイル)unleass私は読み書きループを作ることができます。
あなたは[スパークCSV](HTTPSを見たことがあります。 com/databricks/spark-csv)パッケージ? – hoyland