0
Sparkでデータを持っており、それをさらに解析するためにPandasデータフレームに変換したい。SparkからPandasデータフレームへ反復的に
dataset = sqlContext.sql('SELECT * FROM TEMP')
df=dataset.toPandas()
しかし、テーブルはかなり大きく、パンダの処理中に多くの時間を費やしているようです。
toPandas()関数は、パフォーマンスを向上させるためにデータを繰り返し転送するための反復またはチャンクサイズ(pandasのread_csvのような)を持っていますか?
ありがとうございます!
テーブルの大きさはどれくらいですか?大きすぎると、あなたのedgenodeのRAMが不足する可能性があります。スパークのデータフレームは複数のノードに格納され、パンダのデータフレームは通常はedgenodeに格納されることを理解してください。上記の操作を実行するには、それらの複数のノードすべてからデータを収集する必要があります。したがって、表が大きい場合は時間がかかります。 –
あなたはパンダでこれをやりたいと思っていて、それ自体を刺激したくない特別な理由はありますか? –