2
このエラーは発生していますが、理由はわかりません。 は基本的に私はこのコードからerroringています:pyspark: 'PipelinedRDD'オブジェクトは反復可能ではありません
データはRDDで、私のヘルパーは次のように定義されa = data.mapPartitions(helper(locations))
:
def helper(iterator, locations):
for x in iterator:
c = locations[x]
yield c
(場所は、データポイントの配列だけである)私は表示されません を何が問題なのですか?しかし、私もpysparkで最善ではないので、誰かが私に 'PipelinedRDD'オブジェクトがこのコードから反復可能でない理由を教えてください。
に応じてコードを修正するのに役立ちます
にマップ機能を使用して反復を置き換えます。 Plsはhttp://stackoverflow.com/questions/25914789/how-do-i-iterate-rdds-in-apache-spark-scalaを見ています – Mohan@モハン:私は今考えを得ると思うが、私はまだです同じエラーが発生します。私は今これを呼んでいます:a = data.mapPartitions(lambda iterator:helper(iterator、locations))。私は間違って何をしていますか? – deeformvp