0
に参加このようpysparkシェルに参加:私は内部結合のために同じテーブルを使用内側混乱するIは、内側使用pyspark
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
ので、tab_df.count()
はori_df.count()
として等しくなければならないことが予想されるべきであるが、 tab_df.count()
私に0を与える!
に参加このようpysparkシェルに参加:私は内部結合のために同じテーブルを使用内側混乱するIは、内側使用pyspark
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
ので、tab_df.count()
はori_df.count()
として等しくなければならないことが予想されるべきであるが、 tab_df.count()
私に0を与える!
使用このコマンド:
tab_df = ori_df.join(ori_df, ['column_name'])
pysparkは内部使用しています私は2つの同じテーブルを結合するために私のコンピュータにしようと、あなたが同じ2つに参加したいんなぜそれが
を作品デフォルト
で参加とにかくテーブル?
2つのテーブルが同じデータであるかどうかを確認するだけです – xiaoxin