は私が火花1.4を使用していますが、私は2.7ギガバイトのデータを読み取るためにsc.newAPIHadoopRDDを使用してのHBaseからデータを読み取るしようとしていますが、5タスクがあるがために作成されている5つのパーティション

2016-09-22 sukumar n

タスク（またはパーティション）の数は、使用されるinputFormatに依存します。だから、標準的な入力形式では増やすことはできないようです。新しいspark-on-hbaseまたはhbaseコネクタパッケージを試すことができます –

org.apache.hadoop.hbase.mapreduce.TableInputFormatは、領域ごとにパーティションを作成します。あなたのテーブルは5つの地域に分割されているようです。テーブルを分割すると分割数が増えます（スプリットの詳細についてはhereをご覧ください）。

2016-10-20 21:57:49 botchniaque

答えて