私はspark 2.1を使用しており、スクリプトはpysparkです。私がここにこだわっているので、これで私を助けてください。複数列のpyspark条件と新しい列を返す
問題文は:複数の列
入力dataframe
上の条件に基づいて新しい列を作成するために今、私はFLGとして1つの新しい列を作成する必要が
FLG1 FLG2 FLG3
T F T
F T T
T T F
を下回っていると私の条件はFLG1==T&&(FLG2==F||FLG2==T)
かのようになります私FLG
は他F
T
dataframe
DF
として上に考慮しなければなりません以下
DF.withColumn("FLG",DF.select(when(FLG1=='T' and (FLG2=='F' or FLG2=='T','F').otherwise('T'))).show()
が
が定義されていないとき、私は名前を得ていた動作しませんでした試みたが、私のコードスニペットで
'と'はpysparkで動作しません - https://issues.apache.org/jira/を参照してくださいブラウズ/ SPARK-8568 – desertnaut