1
私は、いくつかのテキストファイルを読み込むときにSparkによって作成されるタスクの数にちょっと混乱します。ここでスパークはどのようにタスクの数を決定しますか?
コードです:完全b
フォルダが読み込まれているので26個のファイルの合計が存在するように
val files = List["path/to/files/a/23",
"path/to/files/b/",
"path/to/files/c/0"]
val ds = spark.sqlContext.read.textFile(files :_*)
ds.count()
フォルダa, b, c
のそれぞれは、24個のファイルが含まれています。今度は、.count()
のようなアクションを実行すると、SparkのUIには24のタスクがあることがわかります。しかし、パーティションごとに1つのタスク、ファイルごとに1つのパーティションのように、26のタスクがあると思っていました。
実際に何が起こっているのか誰かが私にもっと洞察を与えることができれば素晴らしいと思います。
あなたが仕事のために使用されているコアの総数は何ですか?そして設定をしましたか? –
理解しやすくするためです。あなたのコードとあなたのスパークUIの詳細を投稿できますか? –
@SimonSchiff私は8つのコアを使いました。しかし、それは正しい方向性のようです。私はもっと大きなマシンでコードを実行しようとしましたが、26のタスクが予想されていました。 –