2017-08-14 13 views

答えて

1

まず、データフレームにあなたの2つの寄木細工のファイルをお読みください。

Dataset<Row> df1 = spark.read.parquet("dataset1.parquet"); 
Dataset<Row> df2 = spark.read.parquet("dataset2.parquet"); 

をそして、第1と第二のDFをマージするunionAll(スパーク1.X)またはunion(スパーク2.X)を使用します。最後に、この機能以来distinctを使用し、重複を維持します:

Dataset<Row> df_merged = df1.union(df2).distinct(); 
0

データフレームを作成し、等結合

val output = df1.join(df2,Seq("id"),joinType="Inner") 
を使用
関連する問題