2017-10-24 2 views
0

「ではない」私はRDDは、以下のように見えていてフィルタ:「?」PySpark RDDは、複数の値について

myRDD: 
[[u'16/12/2006', u'17:24:00'], 
[u'16/12/2006', u'?'], 
[u'16/12/2006', u'']] 

私はレコードを除外したいですまたはその中に ''。 次のコードは1つずつフィルタリングするために機能しますが、項目を結合して '?'でフィルタリングする方法はありますか?そして、「」次のバックを得るために一度で:

[u'16/12/2006', u'17:24:00'] 

以下の複数の項目に拡張する方法を、一度に一つのアイテムに対してのみ機能

myRDD.filter(lambda x: '?' not in x) 

書き方についてのヘルプをしたい:

myRDD.filter(lambda x: '?' not in x && '' not in x) 

答えて

2

これを試してみてください 、

myRDD.filter(lambda x: ('?' not in x) & ('' not in x)) 
+0

作品、おかげスレシュ – Spandan

関連する問題