いくつかのヌル値で定義されたデータフレームがあります。一部の列は完全にNULL値です。私の場合はpysparkでヌルカラムを検出する方法
>> df.show()
+---+---+---+----+
| A| B| C| D|
+---+---+---+----+
|1.0|4.0|7.0|null|
|2.0|5.0|7.0|null|
|3.0|6.0|5.0|null|
+---+---+---+----+
、私はnull値で満たされている列名のリストを返したいです。私の考えは、一定の列を検出することでした(列全体が同じnull値を含んでいるため)。
nullCoulumns = [c for c, const in df.select([(min(c) == max(c)).alias(c) for c in df.columns]).first().asDict().items() if const]
が、これは何の定数としてNULL列を考慮しない、それが値でのみ動作しません:
これは私がそれをやった方法です。 どうすればいいですか?
@desertnaut:D –