パーティションを識別:スパークmapPartitionsWithIndex:パーティションを識別
mapPartitionsWithIndex(index, iter)
方法は、各パーティションに機能を駆動中に生じます。私は、 "インデックス"パラメータを使ってパーティションを追跡できることを理解しています。
"index = 0"条件を使用してデータセットのヘッダーを削除するために、このメソッドを使用した例が多数あります。しかし、どのようにして最初に読み取られたパーティション(「インデックス」パラメータを0に変換する)が本当にヘッダであることを確認する必要があります。それがランダムであるか、または使用されている場合にはパーティショナーに基づくものではありません。
数字の1つを教えてください。 – hadooper