内側混乱するIは、内側使用pyspark

に参加このようpysparkシェルに参加：私は内部結合のために同じテーブルを使用内側混乱するIは、内側使用pyspark

tab_df=ori_df.join(ori_df,ori_df.columns,'inner')

ので、tab_df.count()はori_df.count()として等しくなければならないことが予想されるべきであるが、 tab_df.count()私に0を与える！

2017-01-25 xiaoxin

使用このコマンド：

tab_df = ori_df.join(ori_df, ['column_name'])

pysparkは内部使用しています私は2つの同じテーブルを結合するために私のコンピュータにしようと、あなたが同じ2つに参加したいんなぜそれが

を作品デフォルト

で参加とにかくテーブル？

2017-01-25 06:13:38

2つのテーブルが同じデータであるかどうかを確認するだけです – xiaoxin

答えて