2つのデータフレームに、それらの列が一致する場合は結合してください

この2つのDFがあります。これは、DF1は、[ 'nice_in_here']である：2つのデータフレームに、それらの列が一致する場合は結合してください

      nice_in_here 
0         NaN 
1       Krystyna 
2        Piotr 
3       Domicela 
4        Jaro

これはDF2ある[[ 'nice_in_there'、 'current_club']]：

nice_in_there    current_club 
0 Krystyna     Klub-Duzych-Pup 
1 Elżbieta     NaN 
2 Domicela     NaN 
3 Piotr      Klub-Duzych-Pup

だから、私は何をしたいことは次のとおりです。

へDF2 ["nice_in_here"]にDF2 ["nice_in_there"]が含まれているかどうかを確認し、そうであれば対応するDF2 ["current_club"]をDF1 ["nice-in_here"]に結合します。

私は（[、[ 'nice_in_here' 'current_club']] DF1を入力した後）で持つようにしたい結果：欠損値が重要であるように私がNaNをドロップしたくない

      nice_in_here  current_club 
0         NaN     NaN 
1       Krystyna  Klub-Duzych-Pup 
2        Piotr  Klub-Duzych-Pup 
3       Domicela     NaN 
4        Jaro     NaN

注意を私のために。

助けてください、これが私を怒らせてくれます！

出典

2017-08-22 MikolajM

これは動作するはずです：

pd.merge(DF1, DF2, how="left", left_on="nice_in_here", right_on="nice_in_there")

出典

2017-08-22 10:06:55 MedAli

オプション1

を使用できdf.map：

In [1073]: mapping = dict(df2.values) 

In [1074]: df1['current_club'] = df1.nice_in_here.map(mapping); df1 
Out[1074]: 
    nice_in_here  current_club 
0   NaN    NaN 
1  Krystyna Klub-Duzych-Pup 
2  Piotr Klub-Duzych-Pup 
3  Domicela    NaN 
4   Jaro    NaN

オプション2

df.mergeは、ここで使用することができます。

In [1079]: df1.merge(df2, how='left', left_on='nice_in_here', right_on='nice_in_there')[df2.columns] 
Out[1079]: 
    nice_in_there  current_club 
0   NaN    NaN 
1  Krystyna Klub-Duzych-Pup 
2   Piotr Klub-Duzych-Pup 
3  Domicela    NaN 
4   NaN    NaN

パフォーマンス

セットアップはdf1に類似した構造のデータセットを含むが、はるかに長い：

df11 = pd.concat([df1] * 10000)

ここでタイミングです：

%timeit df11.nice_in_here.map(mapping) # map 
100 loops, best of 3: 4.49 ms per loop 

%timeit df11.merge(df2, how='left', left_on='nice_in_here', right_on='nice_in_there')[df2.columns] # merge 
100 loops, best of 3: 9.61 ms per loop

出典

2017-08-22 10:11:12

2つのデータフレームに、それらの列が一致する場合は結合してください

答えて

関連する問題