Spark JavaのDataframeを使用して2つのパーケットファイルをマージ

同じスキーマを持つ2つのパーケットファイルがあります。私は、重複データなしでSpark javaのDataframeを使って、2番目のファイルを最初のファイルとマージしたい。これを行う方法？Spark JavaのDataframeを使用して2つのパーケットファイルをマージ

ありがとうございます。

2017-08-14 Prakash

まず、データフレームにあなたの2つの寄木細工のファイルをお読みください。

Dataset<Row> df1 = spark.read.parquet("dataset1.parquet"); 
Dataset<Row> df2 = spark.read.parquet("dataset2.parquet");

をそして、第1と第二のDFをマージするunionAll（スパーク1.X）またはunion（スパーク2.X）を使用します。最後に、この機能以来distinctを使用し、重複を維持します：

Dataset<Row> df_merged = df1.union(df2).distinct();

2017-08-14 07:00:58 Derlin

データフレームを作成し、等結合

val output = df1.join(df2,Seq("id"),joinType="Inner")

を使用

2017-08-14 17:39:21

答えて