pyspark DataFrame join後に失われた行を見つけよう

2つのspark DataFrames、csv_dfとother_dfを指定すると、それらに参加してから、csv_dfの行が結合で失われていることがわかります。ここでpyspark DataFrame join後に失われた行を見つけよう

は、私が試したものです：

AttributeError: 'DataFrame' object has no attribute '_get_object_id'

は私が間違って何をやっている：

csv_df = self.sqlContext.read.load('csv_table.parquet') 
    csv_df = csv_df.withColumn(
     "mid", monotonically_increasing_id() 
    ) 
    other_df = self.sqlContext.read.load('other_table.parquet') 
    joined = csv_df.join(other_df, ['col1', 'col2']) 
    found_rows = joined.select('mid').distinct() 
    not_found_ids = csv_df.where(~csv_df.mid.isin(found_rows))

これは私に次のエラーを与えますか？結合されていない行を取得するためにコードを修正するにはどうすればよいですか？

出典

2017-06-07 LateCoder

私はまだ私の上記の投稿のコードが動作しない理由を知っていただきたいと思いますが、私はちょうど別のは私の質問に答えるために参加しないことを実現しました：

csv_df = self.sqlContext.read.load('csv_table.parquet') 
csv_df = csv_df.withColumn(
    "mid", monotonically_increasing_id() 
) 
other_df = self.sqlContext.read.load('other_table.parquet') 
joined = csv_df.join(other_df, ['col1', 'col2']) 
found_rows = joined.select('mid').distinct() 
not_found_rows = csv_df.selectExpr('mid').subtract(found_rows) 
not_found_ids = csv_df.join(not_found_rows, 'mid')

出典

2017-06-07 20:45:53 LateCoder

pyspark DataFrame join後に失われた行を見つけよう

答えて

関連する問題