0
私の問題は次のとおりです。私はRDDに行をループする必要があり、各行についてはリストをループする必要があります。 マイRDDは次のとおりです。pysparkでlambda fuctionを使って行を反復する方法は?
rdd1:
[a,b,c,d]
[f,g,j,k]
rddMinHash=ListRDD.map(lambda j: funct(iterating into list of row j))
がどのように私はcodeintoのFUNCTを書くことができますか()?
'funct()'に何を期待していますか?そして、どの方法を試しましたか? – Mariusz
lambda jはrdd1の各行を繰り返し処理しますが、funct()は最小ハッシュであり、リストの各項目に適用する必要があります。問題は、minHashはリストを受け入れずに文字列を受け入れることができるため、1つのアイテムを1つの時間にまとめなければならないということです。私は入れ子のラムダ関数を使ってrdd行にループし、内部のlambda functループをリストに入れてみましたが、うまくいきません。 –
Yorアプローチが有効であるようです。あなたが書いたコードで質問を更新できますか?次に、内部にバグを見つけようとすることができます。 – Mariusz