スパークは、私はMongoDBのスパークコネクタを使用するのMongoDBスパークコネクタ

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100)

からのデータフレームを生成したことは大きなコレクションですので、私は100

とき、私に行を制限します

df1.show（）

は、それが高速で動作します使用します。

しかし、私はDF1

の拳の行を参照してください

df1.count

を使用する場合、結果はそれが遅すぎるenter image description here

です。

誰でも私にいくつかの提案を与えることができますか？

2017-02-24 Sun Tianyu

私はあなたがspark.sql.shuffle.partitions構成を調整しようとするべきだと思います。あなたは非常に小さなデータかもしれませんが、デフォルトではたくさんのパーティションを作成しています。それは200です。

2017-02-24 11:50:35 deenbandhu

答えて