2016-08-26 5 views
0

私は、与えられたキーの値が以下に示すような要素のリストであるrddのキーリストペアを持っています:Pyspark - キーリストペアから、キーとリストの最初の要素のみを取得します

a = [('json1', ['9', 3]), ('json2', ['5', 2])] 

、私は次のように唯一のキーと、リストの最初の要素で終わるしたいと思います:

私はこれを取得するために使用すべきpysparkでどのような操作
b = [('json1', '9'), ('json2', '5')] 

答えて

0

非常に簡単です。地図操作のみが必要です。

a = sc.parallelize([('json1', ['9', 3]), ('json2', ['5', 2])]) 
b=a.map(lambda x:(x[0],x[1][0])) 
print(b.take(2)) 

出力

[('json1', '9'), ('json2', '5')] 

あなたはマップや他の操作についてpyspark docsを読むことができます。

関連する問題