同じスキーマを持つ2つのパーケットファイルがあります。私は、重複データなしでSpark javaのDataframeを使って、2番目のファイルを最初のファイルとマージしたい。これを行う方法?Spark JavaのDataframeを使用して2つのパーケットファイルをマージ
ありがとうございます。
同じスキーマを持つ2つのパーケットファイルがあります。私は、重複データなしでSpark javaのDataframeを使って、2番目のファイルを最初のファイルとマージしたい。これを行う方法?Spark JavaのDataframeを使用して2つのパーケットファイルをマージ
ありがとうございます。
まず、データフレームにあなたの2つの寄木細工のファイルをお読みください。
Dataset<Row> df1 = spark.read.parquet("dataset1.parquet");
Dataset<Row> df2 = spark.read.parquet("dataset2.parquet");
をそして、第1と第二のDFをマージするunionAll
(スパーク1.X)またはunion
(スパーク2.X)を使用します。最後に、この機能以来distinct
を使用し、重複を維持します:
Dataset<Row> df_merged = df1.union(df2).distinct();
データフレームを作成し、等結合
val output = df1.join(df2,Seq("id"),joinType="Inner")
を使用