pysparkで.collect（）を改善する方法は？

-1

.collect（）のパフォーマンスを向上させるために、pysparkを調整する他の方法はありますか？pysparkで.collect（）を改善する方法は？

私はmap(lambda row: row.asDict(), x.collect())を使用しています。これは、10Kレコードに対して5秒以上かかるものです。

2017-12-12 techie95

に役立つ可能性があります。 x.map（ラムダ行：row.asDict（））。私はこれが収集後に行うよりも速くすべきだと思います。 –

私はそれを試していないが、多分 Apache Arrowプロジェクトは、それが分散的に動作するようにあなたが収集する前に辞書にそれらを変換することができます

2017-12-12 16:09:59

答えて