0
入力私はクラスタにまたがってrdd Xに変換しました。スパークはデータの入れ替えを処理しますか?
特定の操作を実行します。
次に、出力rddで.repartition(1)
を実行します。
私の出力rddは、入力と同じ順番になりますかです。
これは自動的に処理されますか?はいの場合は、どうですか?
入力私はクラスタにまたがってrdd Xに変換しました。スパークはデータの入れ替えを処理しますか?
特定の操作を実行します。
次に、出力rddで.repartition(1)
を実行します。
私の出力rddは、入力と同じ順番になりますかです。
これは自動的に処理されますか?はいの場合は、どうですか?
ドキュメンテーションは、その注文が保たれることを保証するものではありませんので、あなたはそうではないと想定することができます。あなたは、実装を見れば、あなたは(あなたの元RDDが既に何らかの理由で1つのパーティションがない限り)それは確かではありませんわかりますcoalesce(shuffle = true)
を呼び出しrepartition
、
Distributes elements evenly across output partitions, starting from a random partition.
を何だろうあなたはそれをしますか?なぜデータを単一のパーティションに再パーティション化するのですか? –
@YuvalItzchakov出力を1つのファイルに出力する必要があります。 – Azrael