0
値が1
および0
のフィールドを含むCSVファイルがあります。 pysparkの使用特定のフィールドに1
の値だけを取り込みたいと思います。フィールドを変換すると、それらはint
に変換されます。 if
ステートメントを使用して値が1
であるかどうかを確認すると、None
と1
の多くが返されます。なぜこの問題がありますか?私のcsvファイルに値1
と0
だけが含まれていることを100%確信していますか?RDDpipelineのint値を比較すると、int値とnone値の両方が得られるのはなぜですか?
def vehA(line):
fields = line.split(",")
ddsA = int(fields[28])
ddsB = int(fields[52])
if ddsA == 1:
return ddsA
rdd = lines.map(vehA)
rdd.collect()
は出力:
1
1
1
1
1
1
1
None
None
None
None
1
1
1
1
1
1
None
None
...
私もこれを試してみましたが、私はまだ、同じ出力を得る:あなたがそうであるようにddsA
が1
と等しくないときNone
を返しvehA
if ddsA is not None:
if ddsA == 1 and ddsA is not None:
return ddsA