このようなRDDは2つあります。 - RDD1要素は[123,456,789]のようになり、RDD2タプルは[456、999]のようになります。ここでは、RDD1の2番目の要素である456とRDD2の最初の要素である2つのRDDを結合/結合する必要があります。最終的な出力は次のようになります。 - [123、456、789、999]。これを行う方法や、キーが結合の最初の場所にある必要があるのでしょうか? お時間をいただきありがとうございます。キーが同じ場所にないときに2つのRDDに参加する
1
A
答えて
0
RDDをDataframeに変換し、次に示すように簡単な結合を行うことができます。
rdd1 = sc.parallelize([(123, 456, 789)])
rdd2 = sc.parallelize([(456, 999)])
df1 = rdd1.toDF()
df2 = rdd2.toDF()
result = df1.join(df2, df1['_2'] == df2['_1'])
result.rdd.map(lambda x: (x[0],x[1],x[2],x[4])).collect()
[(123, 456, 789, 999)]
+0
このコードをこのRDDがtoDF関数でなければならないかどうかをチェックします。これは、print hasattr(RDD1、 "tdDF")です。これらがすでにRDDの場合は並列化する必要がありますか? –
+0
私はscalaコードを貼り付けました。私はPythonバージョンを再投稿させます –
+0
@DigvijaySawantはpysparkバージョン –
関連する問題
- 1. 同じキーを持つ2つのRDDに同じHashPartitionerを適用すると、同じパーティションにならない
- 2. Apache Spark:異なるパーティショナーと2つのRDDに参加する
- 3. 2つの特別なRDDに参加するには?
- 4. 同じ場所に同時にノードを追加する
- 5. Apache Sparkで2つのRDDに参加する
- 6. 参加していない場所に参加
- 7. 同じ地図上に2つ以上の場所を表示
- 8. 2つのコンポーネントを同じ場所に置く方法
- 9. 2つの異なるソースから同じテーブルに参加する
- 10. 2つのリストの同じ場所に同じ値があるかどうかを確認する
- 11. Mysql同じキーを参照する同じテーブルの2つの外部キーとの結合
- 12. Foursquare:iOSと同じ場所にいるユーザーの会場数
- 13. SparkでScalaを使用して2つのRDDに参加
- 14. 同じプライマリキーを参照する2つの外部キー
- 15. Laravel - idsが同じ場合にキー/値をレスポンスに追加
- 16. 同じrddの計算に依存してrddに要素を追加する
- 17. 同じ場所で同じエントリの2つのリストを比較する
- 18. ランダムな画像2つの場所同じセット
- 19. GoogleマップとGoogleマップの場所を同じページに参照する方法
- 20. PySparkを使用して同じ2つのデータフレームに2回参加することはできますか?
- 21. データフレームを使用せずにキーを一致させ、2つのRDDをpysparkに参加させる
- 22. Sparkの機能に基づいて共通鍵を使用しない2つのRDDに参加する
- 23. ajaxのソースは他の場所(同じサーバーにない)のhttpファイルにすることができますか?
- 24. 2つの外部キーが同じテーブルを参照しています
- 25. SQLサーバーが異なると、クエリのパフォーマンスに参加する場所の条件
- 26. GoogleマップAPI V3 - 同じ地図上にマーカーを持つ2つの場所
- 27. Kohanaの同じテーブルに2つの異なる外部キーを持つテーブルを参照するORM
- 28. C#のデータテーブルが2列に参加し、同じ名前
- 29. 同じアプリ内購入をアプリ内の2つの異なる場所に表示できますか?
- 30. 2つの大きなクエリに参加するには?ここ
したがって、RDD1は3要素のタプルで構成され、RDD2は2要素のタプルで構成されますか? –
はい..正しいです。これらの2つのRDDを4つの要素のタプルに結合し、次にこの最後の要素に基づいて最終結合RDDを減らす必要があります。 –