2016-12-15 12 views
-3

結果のデータフレームは、その上で計算を実行した後に得られます。データフレームは結果です。 Amazon S3に書き込むと、空白で表示される特定のセルがあります。結果データフレームの上位5は次のとおりです。スパークでの書き込み後のデータ損失


_________________________________________________________ 
|var30 |var31 |var32 |var33 |var34 |var35 |var36| 
-------------------------------------------------------- 
|-0.00586|0.13821 |0  |  |1  |  |  | 
|3.87635 |2.86702 |2.51963 |8  |11  |2  |14 | 
|3.78279 |2.54833 |2.45881 |  |2  |  |  | 
|-0.10092|0  |0  |1  |1  |3  |1 | 
|8.08797 |6.14486 |5.25718 |  |5  |  |  | 
--------------------------------------------------------- 

But when i run result.show() command i am able to see the values. 

_________________________________________________________ 
|var30 |var31 |var32 |var33 |var34 |var35 |var36| 
-------------------------------------------------------- 
|-0.00586|0.13821 |0  |2  |1  |1  |6 | 
|3.87635 |2.86702 |2.51963 |8  |11  |2  |14 | 
|3.78279 |2.54833 |2.45881 |2  |2  |2  |12 | 
|-0.10092|0  |0  |1  |1  |3  |1 | 
|8.08797 |6.14486 |5.25718 |20  |5  |5  |34 | 
--------------------------------------------------------- 

また、空白は実行するたびに同じセルに表示されます。

+0

グレート質問にデータを保存します。ここにはたくさんの詳細があります。あなたの問題を完全に理解することができます。 –

+1

[最小限の完全で検証可能な例を作成する](http://stackoverflow.com/help/mcve) – maasg

+0

申し訳ありません@Sa – avinash

答えて

0

使用これはあなたのS3 DataFrame.repartition(1).write.format("com.databricks.spark.csv").option("header", "true").save("s3n://Yourpath")

+0

私はまったく同じ声明を使っています。 – avinash

関連する問題