同じIDが常に同じロジックプランで出力されますか？

あなたの下には、私がやろうとしているものの簡略版があります。 S3に格納されているを150 parquets（> 10TB）にロードします。次に、このデータフレームにfunc.monotonically_increasing_id()というID列を与えます。その後、私はこのdataframeの2つの偏差を保存します。私が適用機能は、今私はparquet_2を作成するために、再びS3からすべてのデータをparquet_1ロードを作成した後にその火花を気づいた私がここに存在するが、私は、これは同じIDが常に同じロジックプランで出力されますか？

DF_loaded = spark.read.parquet(/some/path/*/') 
DF_with_IDs = DF_loaded.withColumn('id',func.monotonically_increasing_id()) 
#creating parquet_1  
DF_with_IDs.where(col('a').isNotNull()).write.parquet('/path/parquet_1/') 
#creating parquet_2 
DF_with_IDs.where(col('b').isNotNull()).write.parquet('/path/parquet_2/')

間でポイントを獲得を期待よりも、もう少し複雑にしています。今私はparquet_1に与えられたIDがparquet_2のものと一致しないことを心配しています。同じ行がparquetsに異なるIDを持っていること。

#parquet_1 
load_data -> give_ids -> make_selection -> write_parquet 
#parquet_2 
load_data -> give_ids -> make_selection -> write_parquet

だから、両方 parquetsで同じ行に与えられた同じIDです：限り私はロジック計画スパークは、このようなルックスを思い付くことを理解するため？

出典

2017-12-16 Thagor

限り：

あなたはスパーク（SPARK-13473、SPARK-14241）の最新バージョンを使用しています。
アクション間の構成変更はありません（構成の変更はパーティション数および結果IDに影響する可能性があります）。

monotonically_increasing_idは安定しているはずです。これにより、述部プッシュダウンが無効になることに注意してください。

rdd.zipWithindex.toDFは、構成に関係なく安定している必要があります。

出典

2017-12-16 15:33:48 user8371915

私は2.2です。それで解決される – Thagor

同じIDが常に同じロジックプランで出力されますか？

答えて

関連する問題