0
私はcsvのデータを読み込むために6コアと60 GBのメモリを持つpyspark糸プロセスを作成しました。今私がロードしたら、それをpandasデータフレームに変換する必要があります。 私はdf.toPandas()
で試してみましたが、プロセスは開始されましたが、数分後にステージが全部再スタートします(ゼロからのリフレッシュなど)。これは私がこの質問を入力した瞬間です。 Pysparkはsparkシェルのpandas dfにspark dfを書き込むことができません
[Stage : 10 > ---------------- (0 + 836)/11830]
しかし、プロセスがステージ・エラーが原因で停止したように、836は0に今どこ数を更新し、私のエラーのいくつかの束を与えるために起こっているいくつかの瞬間で
。 あなたはおそらくエラーの原因を知っていますか?