私はそれらを一緒に結合する必要がある2つのrddを持っています。 pysparkは特定のキーでrddsを結合します
[(u'1', u'2'), (u'1', u'3')]
RDD2
RDD1
[(u'2', u'100', 2),
(u'1', u'300', 1),
(u'1', u'200', 1)]
を私の所望の出力は次のとおりです:彼らは、以下のようになり
[(u'1', u'2', u'100', 2)]
だから私が持っているRDD2からのものを選択したいと思いますRDD1の同じ第2の値。私は参加しようとしましたが、デカルトとは何も働いていないし、私が探しているものに近くなっていません。私はスパークには新しく、あなたからの助けに感謝します。
ありがとうございます。
を行うために
join
を使用するキーを圧縮しますか? – titipata