私はdfと呼ばれるpysparkデータフレームを持っています。別の列の値に基づいてpyspark列を変更してください
ONE LINE EXAMPLE:
df.take(1)
[Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")]
私は休日の日のリストを持っている:
holydays=[u'2016-12-25',u'2016-12-08'....]
私は「データ」holydaysリストにある場合は「HOLIDAY」にDAY_TYPEを切り替えたいそうでない場合、私はそれとしてDAY_TYPEフィールドを残したいですです。
これは私の非作業暫定的である:
df=df.withColumn("day_type",when(col("data") in holydays, "HOLIDAY").otherwise(col("day_type")))
PySparkは "holydays" という表現が好きではありません。 それは、このエラーを返します:代わりに値がリストに存在するかどうかを確認する句で使用する列に
ValueError: Cannot convert column into bool: please use '&' for 'and', '|'