次の行は、RDD
または複数のRDD
を1つ作成しますか?複数のRDDとパーティションの分割?
val textFile = sc.textFile("README.txt")
私の理解は、各partition
は、さらに、同じ/異なるノード上で処理することができる複数partitions
(デフォルトでは、各partition
128のMB)を有する単一RDD
を作成することです。 Spark
にsingleの代わりにmutilple RDD
を作成することができますか?はいの場合は賛否両論ありますか?
1つではなく複数のRDDが必要なのはなぜですか?それの利点は何だと思いますか? – eliasah
これは私の質問ですか?デフォルトでは常に1つのrddを作成します。いずれのシナリオでもこの動作を変更する必要がありますか? –
さて、通常はフレームワークで扱うデータを明示的に分割する必要はありませんが、場合によっては、例ごとに歪んだデータがある場合にカスタムパーティショナーを使用する必要があります。通信は非常に高価なので、ネットワークトラフィックを最小限に抑えるためにデータをレイアウトすると、パフォーマンスが大幅に向上します。残念ながら、それはすべて非常に退屈で広範囲です。 – eliasah