私はスパーク1.6.1を使用します。「WARN TaskSetManager:ステージ4には非常に大きなサイズのタスクが含まれていますか?」
私のsparkアプリケーションは、s3に格納されている10000を超える寄木細工ファイルを読み込みます。
val df = sqlContext.read.option("mergeSchema", "true").parquet(myPaths: _*)
myPaths
は10000個の寄木細工のファイルのパスが含まれArray[String]
です。各パスは次のようなものですs3n://bucketname/blahblah.parquet
スパークは以下のようなメッセージを表示します。
WARN TaskSetManager:ステージ4には、非常に大きなサイズのタスク (108KB)が含まれています。推奨されるタスクの最大サイズは100KBです。
スパークが実行して、とにかく仕事を終了しましたが、これはスパーク処理の仕事を遅くすることができると思います。
誰かがこの問題についての良い提案をしていますか?
あなたのコードを共有してください、現在、私たちはより少ない情報で助けてください –
こんにちは!わかりません。小さなデータセットであっても、最小のパーティションは、しばしば〜32Moの100KBよりはるかに大きくなります。だからどのように再パーティション化が助けになるのでしょうか? – Boris
https://github.com/jaceklaskowski/mastering-apache-spark-book/blob/master/spark-TaskSetManager.adocを参照してください。 – Boris