I'amの数に基づいて、私はこのようなテーブルを有する:カラムに基づいPyspark:フィルタリングDATAFRAME pysparkを使用して行ごとにnull値
id | ClientNum | Value | Date | Age | Country | Job
1 | 19 | A | 1483695000 | 21 | null | null
2 | 19 | A | 1483696500 | 21 | France | null
3 | 19 | A | 1483697800 | 21 | France | Engineer
4 | 19 | B | 1483699000 | 21 | null | null
5 | 19 | B | 1483699500 | 21 | France | null
6 | 19 | B | 1483699800 | 21 | France | Engineer
7 | 24 | C | 1483699200 | null | null | null
8 | 24 | D | 1483699560 | 28 | Spain | null
9 | 24 | D | 1483699840 | 28 | Spain | Student
値、iは異なる各ClientNumために残しておきたいですほとんどの情報(Age、Country、Job)が指定されている値。
ClientNum | Value | Date | Age | Country | Job
19 | A | 1483697800 | 21 | France | Engineer
19 | B | 1483699800 | 21 | France | Engineer
24 | C | 1483699200 | null | null | null
24 | D | 1483699840 | 28 | Spain | Student
ありがとう:
結果はこのようなものになるはずです!
を[この回答を試してみてください](http://stackoverflow.com/questions/38649793/how-to-get-distinct-rows-in-dataframe-using -pyspark)と[これも参照してください](http://stackoverflow.com/questions/39287729/filterrows-by-distinct-values-in-one-column-in-pyspark) – ARr0w
できませんdf.distinct()またはdf.drop_duplicates()を使用すると、すべての行が私のexemple上で区別されます。私は明確な値だけを保持したい。 – Omar14
これはこれらの回答についてです。あなたが保持したい明確な価値を得るために。 – ARr0w