私はsparkから始まっていますが、私はまだいくつかの概念を理解していませんでした。spark - 値とキーを比較
私はこのような名前のペアを持つファイルがあります:
foo bar
bar foo
をしかし、fooとbarの間で同じ関係です。第一の出力を作成するために
step1 = joined.reduceByKey(lambda x,y: x+';'+y).map(lambda x: (x[0], x[1].split(';'))).sortByKey(True).mapValues(lambda x: sorted(x)).collect()
、と私はのために既存の値を削除するには、別のreduceByKeyが必要だと思う:私は、私はこのコードを作成するだけで1つのリレーション
foo bar
とRDDを作成しようとしています以前の反復が、私はそれを行う方法がわかりません。
私は正しく考えていますか?
あなたは、その値がすでにキーとして存在しているので、あなたのファイルの2番目のレコードが除去されなければならない意味ですか最初のレコード? –
@ rogue-one、はい。ありがとう@サントン! –