Pysparkはsparkシェルのpandas dfにspark dfを書き込むことができません

私はcsvのデータを読み込むために6コアと60 GBのメモリを持つpyspark糸プロセスを作成しました。今私がロードしたら、それをpandasデータフレームに変換する必要があります。私はdf.toPandas()で試してみましたが、プロセスは開始されましたが、数分後にステージが全部再スタートします（ゼロからのリフレッシュなど）。これは私がこの質問を入力した瞬間です。 Pysparkはsparkシェルのpandas dfにspark dfを書き込むことができません

[Stage : 10 > ----------------      (0 + 836)/11830]

しかし、プロセスがステージ・エラーが原因で停止したように、836は0に今どこ数を更新し、私のエラーのいくつかの束を与えるために起こっているいくつかの瞬間で

。あなたはおそらくエラーの原因を知っていますか？

出典

2017-09-26 jovicbg

ドキュメントhereで説明したように、df.ToPandas()は小さなデータセットで使用することを意図しています。

注すべてのデータがドライバのメモリにロードされるように、得られたパンダの DATAFRAMEは、小さいことが予想される場合、この方法は、使用されるべきです。

出典

2017-09-26 12:24:47 MedAli

Pysparkはsparkシェルのpandas dfにspark dfを書き込むことができません

答えて

関連する問題