2015-12-04 16 views
5

私は、Pythonで火花を使用していますが、次のように私は、フィルタの制約があります。フィルタメソッドのpysparkのユーザ定義メソッドに追加のパラメータを渡すにはどうすればよいですか?

my_funcは、私は私自身のロジックに基づいてRDD項目をフィルタリングするために書いた方法である
my_rdd.filter(my_func) 

。次のように私はmy_funcを定義している:

def my_func(my_item): 

{ 
... 
} 

は今、私はそれに入るアイテムのほか、my_funcする別の独立したパラメータを渡したいです。どうやってやるの? my_itemはmy_rddから来る1つの項目を参照し、my_funcの追加パラメータとして自分のパラメータ(my_paramと言う)をどのように渡すことができますか?

+1

可能な重複[スパークRDD - 追加の引数を持つマッピング](http://stackoverflow.com/questions/33019420/spark-rdd -mapping-with-extra-arguments) – zero323

答えて

8

ラムダ構文の下に使用して、余分なパラメータを使用してmy_funcを変更します。

my_rdd.filter(lambda row: my_func(row,extra_parameter)) 
関連する問題