2016-09-22 11 views
1

で2.7ギガバイトのデータを読んでいますこの段階で2 t0分を処理して処理します。誰も私にデータを高速に読み取るために、より多くのパーティションを増やす方法を教えてもらえますか?は私が火花1.4を使用していますが、私は2.7ギガバイトのデータを読み取るためにsc.newAPIHadoopRDDを使用してのHBaseからデータを読み取るしようとしていますが、5タスクがあるがために作成されている5つのパーティション

+0

タスク(またはパーティション)の数は、使用されるinputFormatに依存します。だから、標準的な入力形式では増やすことはできないようです。新しいspark-on-hbaseまたはhbaseコネクタパッケージを試すことができます –

答えて

0

org.apache.hadoop.hbase.mapreduce.TableInputFormatは、領域ごとにパーティションを作成します。あなたのテーブルは5つの地域に分割されているようです。テーブルを分割すると分割数が増えます(スプリットの詳細についてはhereをご覧ください)。

関連する問題