私はpartitionBy
関数が私のデータを分割することを理解します。 rdd.partitionBy(100)
を使用すると、キーでデータを100個に分割します。類似したキーに関連付けられたデータがまとめてグループ化されますパーティションバイナリを使用したパーティション分割データ
- 私の理解は正しいですか?
- 利用可能なコア数に等しいパーティション数を使用することをお勧めしますか?処理がより効率的になりますか?
- 私のデータがキー値形式でない場合はどうなりますか?私はまだこの機能を使用できますか?
- 私のデータは、serial_number_of_student、student_nameと言うことができます。この のケースでは、 serial_numberではなくstudent_nameでデータを分割できますか?
この答えを確認するには、多くのタイプミスがあります。 –