私はpyspark環境で働いていると私は aとb、Pythonで2つのネストされたリストの各要素の交点を取得する方法は?
a=[[1,2,3],[8,9,45,0,65],[3,7,23,88],[44,77,99,100,654]]
b=[[1,3,7],[0,9,67,22,45,8,11],[23,3],[100]]
を2ネストされたリストを持っている場合、私はpythonの
intersection_list=[[1,3],[8,9,45,0],[3,23],[100]]
におけるこれら二つの交点と最終カウントをしたいですこれは
list_count=[2,3,2,1]
どのようにpysparkでこの結果を得るのですか?
pyparkにもRDDでこれを行うにはどのような方法があります私は
[[[n for n in a if n in b]for x in a]for y in b]
を試してみましたが、このdid'tは私が
intersection_list を必要与えましたか?
。私はここに示したテクニックを使って調整することができます:http://stackoverflow.com/q/32084368/1560062 – zero323
以下のコードはこのエラーをpysparkに投げています トレースバック(最新のコール最後): ファイル "" 'PipelinedRDD' オブジェクトは、このコードはpysparkで指定されたエラーを投げている –