2017-09-26 16 views
0

私はcsvのデータを読み込むために6コアと60 GBのメモリを持つpyspark糸プロセスを作成しました。今私がロードしたら、それをpandasデータフレームに変換する必要があります。 私はdf.toPandas()で試してみましたが、プロセスは開始されましたが、数分後にステージが全部再スタートします(ゼロからのリフレッシュなど)。これは私がこの質問を入力した瞬間です。 Pysparkはsparkシェルのpandas dfにspark dfを書き込むことができません

[Stage : 10 > ----------------      (0 + 836)/11830] 

しかし、プロセスがステージ・エラーが原因で停止したように、836は0に今どこ数を更新し、私のエラーのいくつかの束を与えるために起こっているいくつかの瞬間で

。 あなたはおそらくエラーの原因を知っていますか?

答えて

0

ドキュメントhereで説明したように、df.ToPandas()は小さなデータセットで使用することを意図しています。

注すべてのデータが ドライバのメモリにロードされるように、得られたパンダの DATAFRAMEは、小さいことが予想される場合、この方法は、使用されるべきです。

関連する問題