は、だから私のRDDは次のように見ているデータで構成されています。作成組み合わせPyspark
だから、エンドマップは次のようになります。私は値の一部を取得するために知って
(k1, (v1,v2))
(k1, (v1,v3))
(k1, (v2,v3))
、私は
rdd.cartesian(rdd).filter(case (a,b) => a < b)
のようなものを使用しますが、それは(渡される全体RDDが必要です右?)価値の部分だけではありません。私は私の希望の終わりに到着する方法が不明です、私はそのグループの疑いがあります。
はまた、最終的に、私はkに取得したい、V
((k1,v1,v2),1)
のように見える、私はそれに探しています何から取得する方法を知っているが、まっすぐそこに行くことは多分その容易な?
ありがとうございました。
ようこそstackoverflow。あなたの質問を書式化し、略語を取り除き、[この文書を読む](http://stackoverflow.com/help/how-to-ask)。これはあなたの質問が将来の読者に役立つでしょう。 –