-1
.collect()のパフォーマンスを向上させるために、pysparkを調整する他の方法はありますか?pysparkで.collect()を改善する方法は?
私はmap(lambda row: row.asDict(), x.collect())
を使用しています。これは、10Kレコードに対して5秒以上かかるものです。
.collect()のパフォーマンスを向上させるために、pysparkを調整する他の方法はありますか?pysparkで.collect()を改善する方法は?
私はmap(lambda row: row.asDict(), x.collect())
を使用しています。これは、10Kレコードに対して5秒以上かかるものです。
私はそれを試していないが、多分 Apache Arrowプロジェクトは、それが分散的に動作するようにあなたが収集する前に辞書にそれらを変換することができます
に役立つ可能性があります。 x.map(ラムダ行:row.asDict())。私はこれが収集後に行うよりも速くすべきだと思います。 –