通常のRDDとRDDの違いを理解しています。通常のRDDではなく、一対のRDDが使用されるユースケースは何ですか?可能であれば、RDDペアの内部を理解したいと思います。ありがとうRDDとペアRDDの相違点と使用例
答えて
ペアのRDDは、キーと値のペア、つまりデータのタプルを含むRDDを参照する単なる方法です。他のものを使用するのではなく、実際に使用することではありません。たとえば、IDに基づいて何かを計算する場合は、入力をIDでグループ化します。あなたが値を減らすためか、に基づいてデータをソートすることができますあなたがで終わることに
val pairs = lines.map(x => (x.split(" ")(0), x))
ペアRDD:この例は、単なるテキストの行を分割し、キーとして最初の単語を使用してペアRDDを返します[1]いくつかの例を挙げると、キーです。
ペアのRDDの理解とタプルの操作方法は、あなたがやることの多くにとって非常に基本的なものなので、下のリンクを読んでみるとよいでしょう。スパークでペアを設定したら、通常は何をしたいかを理解するために、「ペアRDDのトランスフォーメーション」を読んでください。
[1] https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch04.html
スパークは、キー/値のペアを含むRDDSに特別な操作を提供します。これらのRDDはペアRDDと呼ばれます。ペアRDDは、ネットワーク上で並列に各キーを操作したり、データを再編成する操作を公開するため、多くのプログラムで有用な構成要素です。たとえば、ペアのRDDには、各キーごとにデータを個別に集計できるreduceByKey()メソッドと、要素を同じキーでグループ化して2つのRDDをマージできるjoin()メソッドがあります。 RDD(イベント時間、顧客ID、または他の識別子を表す)からフィールドを抽出し、これらのフィールドをペアのRDD操作のキーとして使用するのが一般的です。
キーdifferncesは、(そのようなマップ、reduceByKeyなどとして)
pairRDD操作はキーと値のペアを生成します。 RDDの操作(flatMapやreduceなど)では値のコレクションまたは単一の値が得られます
pairRDD操作は各キー/要素に並列で適用されます.RDDの操作(flatMapなど)はコレクション全体に適用されます。
- 1. キーと値のペアRDD
- 2. ローカルRデータフレームとSparkRデータフレームとRDDとの違いと相違
- 3. ペアRDD変換
- 4. Spark DataSetとRDDの違い
- 5. Blaze.getData()とTemplate.currentData()の相違点とそれぞれの使用例
- 6. mongodbのdb.getreplicationinfo()とrs.printreplicationinfo()の使用例と相違点
- 7. RDDとしてのDataframeの使用
- 8. 例外HDFSスパークRDD
- 9. パターンマッチングとRDD
- 10. Xamarin:Java.IOとSystem.IOの使用の相違点
- 11. Pyspark RDDから複数RDDへのRDD
- 12. スパークを使用RDD
- 13. PythonのペアRDDから値を取得
- 14. importとconstとの相違点とcommonjsでの相違点
- 15. RDD他のRDDにフィルタとしてセットを使用する方法
- 16. 理解RDDとデータセットとRDDのドキュメントからデータセット
- 17. =と:=の相違点
- 18. RDDを使用してSparkでRDDを平滑化して、反復値のペアを取得しない
- 19. RDDでMapValuesとExplode
- 20. PHPUnitとPHPSpecの相違点と相違点
- 21. 相当のRDD ForEach of Flark Flickの
- 22. RDDを使用したスパークストリーミングコンテキスト
- 23. RDD [Array [String]]対RDD [String]
- 24. Scalaは:RDD [LabelledPoint] RDD [(ロング、ベクトル)]
- 25. RDD
- 26. RDD
- 27. RDDとApache Sparkのパーティション
- 28. は、私は2 RDDのを持っているRDDの交差点
- 29. CBUUIDとNSUUIDの相違点
- 30. NSTimeZoneとGMTの相違点