1
で2.7ギガバイトのデータを読んでいますこの段階で2 t0分を処理して処理します。誰も私にデータを高速に読み取るために、より多くのパーティションを増やす方法を教えてもらえますか?は私が火花1.4を使用していますが、私は2.7ギガバイトのデータを読み取るためにsc.newAPIHadoopRDDを使用してのHBaseからデータを読み取るしようとしていますが、5タスクがあるがために作成されている5つのパーティション
で2.7ギガバイトのデータを読んでいますこの段階で2 t0分を処理して処理します。誰も私にデータを高速に読み取るために、より多くのパーティションを増やす方法を教えてもらえますか?は私が火花1.4を使用していますが、私は2.7ギガバイトのデータを読み取るためにsc.newAPIHadoopRDDを使用してのHBaseからデータを読み取るしようとしていますが、5タスクがあるがために作成されている5つのパーティション
org.apache.hadoop.hbase.mapreduce.TableInputFormat
は、領域ごとにパーティションを作成します。あなたのテーブルは5つの地域に分割されているようです。テーブルを分割すると分割数が増えます(スプリットの詳細についてはhereをご覧ください)。
タスク(またはパーティション)の数は、使用されるinputFormatに依存します。だから、標準的な入力形式では増やすことはできないようです。新しいspark-on-hbaseまたはhbaseコネクタパッケージを試すことができます –