2017-08-24 20 views
2

私はスパムフィルターで自分自身を試しています。テキストファイルにスパムとしてラベルを付けるいくつかの方法を試しました。その結果、私は3つのデータフレームを持っています。彼らは基本的に次のようになります。ファイルはどの方法でスパムとそうであれば標識された場合パンダのデータフレームを比較し、重複をチェックしますか?

df_method_1 = pd.DataFrame({'file': ['A','B' ,'C'], 'spam': ['1', '0', '0']}) 
df_method_2 = pd.DataFrame({'file': ['A','B' ,'C'], 'spam': ['1', '1', '0']}) 
df_method_3 = pd.DataFrame({'file': ['A','B' ,'C'], 'spam': ['1', '1', '0']}) 

私は今、データフレームの上映をレコード生成しようとしています。私は情報を探しています、もちろん

df_summary = pd.DataFrame({'file': ['A','B' ,'C'], 'spam': ['All methods', 'Method 2 & Method 3', 'No method']}) 

:最良の場合には

は、私は次のinfortmationを含むデータフレームを作成することができます。実際の文字列の必要はありません。

私はpandas.DataFrame.isin()を試してみました。しかし、私は失敗しました。どのようにこれを行うにはどのようなアイデア?

答えて

1

merge()

df1.merge(df2, on="file").merge(df3, on="file") 
    file spam_x spam_y spam 
0 A  1  1 1 
1 B  0  1 1 
2 C  0  0 0 
関連する問題