2

私はCB、CI、CRの値を持つ列Xにフィルタ条件を適用する必要があるデータフレームrawdataを持っています。だから私は以下のコードを使用:pysparkのリストの値の列をフィルタリングする方法は?

df = dfRawData.filter(col("X").between("CB","CI","CR")) 

をしかし、私は次のエラーを取得しています:

between() takes exactly 3 arguments (4 given)

私はこの問題を解決する方法を教えてください。

答えて

2

betweenは、値が2つの値の間にあるかどうかを確認するために使用され、入力は下限と上限です。列の値がリストに含まれているかどうかを確認するために使用することはできません。それを行うには、isin

df = dfRawData.where(col("X").isin({"CB", "CI", "CR"})) 
+0

ありがとうございます。 – LKA

関連する問題