2017-02-24 11 views
1

によって生成されたデータフレームに遅すぎる作品のMongoDBスパークは、私はMongoDBのスパークコネクタを使用するのMongoDBスパークコネクタ

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100) 

からのデータフレームを生成したことは大きなコレクションですので、私は100

とき、私に行を制限します

df1.show()

は、それが高速で動作します使用します。

しかし、私はDF1

の拳の行を参照してください

df1.count 

を使用する場合、結果はそれが遅すぎるenter image description here

です。

誰でも私にいくつかの提案を与えることができますか?

答えて

0

私はあなたがspark.sql.shuffle.partitions構成を調整しようとするべきだと思います。あなたは非常に小さなデータかもしれませんが、デフォルトではたくさんのパーティションを作成しています。それは200です。

関連する問題