2017-01-25 7 views
0

に参加このようpysparkシェルに参加:私は内部結合のために同じテーブルを使用内側混乱するIは、内側使用pyspark

tab_df=ori_df.join(ori_df,ori_df.columns,'inner') 

ので、tab_df.count()ori_df.count()として等しくなければならないことが予想されるべきであるが、 tab_df.count()私に0を与える!

答えて

0

使用このコマンド:

tab_df = ori_df.join(ori_df, ['column_name']) 

pysparkは内部使用しています私は2つの同じテーブルを結合するために私のコンピュータにしようと、あなたが同じ2つに参加したいんなぜそれが

を作品デフォルト

で参加とにかくテーブル?

+0

2つのテーブルが同じデータであるかどうかを確認するだけです – xiaoxin