2017-02-07 8 views
2

「AND」を使用して異なる条件を連鎖させて選択すると、選択範囲がきれいになります。 「OR」で連鎖条件を選択すると、選択によってエラーが発生します。パンダ複数の条件でまたはステートメントを使用してスライシング/選択

>>> import pandas as pd 
>>> import numpy as np 
>>> df = pd.DataFrame([[1,4,3],[2,3,5],[4,5,6],[3,2,5]], 
...  columns=['a', 'b', 'c']) 
>>> df 
    a b c 
0 1 4 3 
1 2 3 5 
2 4 5 6 
3 3 2 5 
>>> df.loc[(df.a != 1) & (df.b < 5)] 
    a b c 
1 2 3 5 
3 3 2 5 
>>> df.loc[(df.a != 1) or (df.b < 5)] 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/usr/lib/python3/dist-packages/pandas/core/generic.py", line 731, in __nonzero__ 
    .format(self.__class__.__name__)) 
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all(). 

すべての行がこの条件を満たしているので、データフレーム全体を返すことが期待されます。

答えて

5

注意すべき重要なことは、ビット単位論理演算子ではなくである「または」&へと同等の|

通常

両方&|あるので、彼らは異なるものです&andと同じではないということですPython "論理"演算子。

パンダでは、これらの演算子はSeries操作のためにオーバーロードされます。

In [1]: import pandas as pd 

In [2]: import numpy as np 

In [3]: df = pd.DataFrame([[1,4,3],[2,3,5],[4,5,6],[3,2,5]], columns=['a', 'b', 
    ...: 'c']) 

In [4]: df 
Out[4]: 
    a b c 
0 1 4 3 
1 2 3 5 
2 4 5 6 
3 3 2 5 

In [5]: df.loc[(df.a != 1) & (df.b < 5)] 
Out[5]: 
    a b c 
1 2 3 5 
3 3 2 5 

In [6]: df.loc[(df.a != 1) | (df.b < 5)] 
Out[6]: 
    a b c 
0 1 4 3 
1 2 3 5 
2 4 5 6 
3 3 2 5 
+2

そしてここで 'loc'を省略することができ、それは純粋な['ブールindexing'](http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing)です。 'loc'は' df.loc [(df.a!= 1)]のようないくつかの列を選択する必要がある場合に使用されます。 (df.b <5)、 'a'] 'または' df.loc [(df.a!= 1)| (df.b <5)、['a'、 'b']] ' – jezrael

+0

とbtw素敵な答え;) – jezrael

関連する問題