2017-12-12 9 views
-1

.collect()のパフォーマンスを向上させるために、pysparkを調整する他の方法はありますか?pysparkで.collect()を改善する方法は?

私はmap(lambda row: row.asDict(), x.collect())を使用しています。これは、10Kレコードに対して5秒以上かかるものです。

+0

に役立つ可能性があります。 x.map(ラムダ行:row.asDict())。私はこれが収集後に行うよりも速くすべきだと思います。 –

答えて

1

私はそれを試していないが、多分 Apache Arrowプロジェクトは、それが分散的に動作するようにあなたが収集する前に辞書にそれらを変換することができます

関連する問題