2017-05-08 10 views
1

私はsparkの教科書を読んでいます。私はその変換と動作を見て、再びrdd関数を読んでいます。だから私は混乱しています。誰も変換とspark rdd関数の基本的な違いを説明できます。sparkの変換とrdd関数の違いは何ですか?

両方ともrddデータの内容を変更し、新しいrddを返すために使用されますが、私は正確なexplantionを知りたいと思います。

答えて

1

スパークrddの機能は、transformationsactionsの両方です。 Transformationrddのデータを変更する機能であり、Actionはデータを変更せずに出力する機能です。
例:
map,、unionなどは、すべて既存のデータの変更に役立ちますので、transformationです。 reduce,collect,countはすべて出力を与え、データを変更しないため、actionです。既存のものから新しいデータセットを作成、変換、およびアクション、データセットに対して計算を実行した後にドライバプログラムに値を返す:SparkJacek

0

RDDSは操作の2種類のみをサポートする詳細情報訪問のため 。

RDD Functionsは、内部メカニズムのテキストブックで使用される総称です。

たとえば、MAPは、関数を介して各データセット要素を渡し、結果を表す新しいRDDを返す変換です。 REDUCEは、何らかの関数を使用してRDDのすべての要素を集計し、最終結果をドライバプログラムに返すアクションです。

関連する問題