アドホッククエリのためにHBaseテーブルのスキャンを行う必要があります。現在、私は単一のノードを使用しています。 HBaseを1台以上のマシンで分散モードで実行すると高速化できるかどうか疑問に思っていました。 m1.large EC2マシンで300万行のスキャンを実行するには現在、約5分かかります。 スキャンを速くする方法に関するアイデアは大歓迎です。現在、多くの助けとなっているscan.setCachingが有効になっています。2台以上のマシンでHBaseを実行している場合、Hbaseでスキャンを高速に実行していますか?
2
A
答えて
4
いいえ、ノードを追加するとスキャンが高速化されません。 HBaseスキャンは、いくつかの理由で連続しています。
あなたが作るときに返されるものこのような呼び出しHTable.getScanner(scan)
がResult
オブジェクトのイテレータです - next()
項目を呼び出す時、HBaseのは、実際にあなたのスキャンのパラメータを使用して次の行の別のGet-のようなクエリを実行しています。すべてのScan
オブジェクトは、行キーのリストを生成し、それを移動するためのイテレータを提供します(実際には、行キーが存在する領域をキャッシュして把握していますが、無視できます) 。
HBaseのScan
の実際のメカニズムを超えて、regionsの問題が物理的にディスクにデータを格納するためのアーキテクチャとなります。リージョンファイル内の最も幅広い構成要素は列ファミリです。これは、同じ列/ファミリのデータの一部をフェッチする際のオーバーヘッドを少なくすることができるため、意味があります。通常、列ファミリは1つの領域(または列ファミリのサイズが拡大するにつれて領域の集合)内に存在するため、複数の領域からの読取りを保証するのに十分な行を走査しない限り、 (ある時点の後、map/reduce操作を使用してデータセットの情報を収集し、データセットを計算することが有用になります)。
関連する問題
- 1. HBaseのバッチは、私はHBaseのテーブルから1000行を取得したいスキャン
- 2. HBase(簡単):hbaseシェルでレンジプレフィックススキャンを実行する方法
- 3. JavaサーブレットでHbaseを実行する
- 4. hbaseコマンドを実行するシェルスクリプト - hbaseテーブルを作成する
- 5. リモートHBaseに対してYCSBを実行する方法
- 6. hbaseでフィルタを使用してローカウントを実行するベストプラクティスは何ですか?
- 7. HORTONWORKS - HBaseの/フェニックス - WALEditCodec - HBaseの上にフェニックスを実行しようとしているときに、私は、次のエラーが発生します
- 8. hbaseでセルマージを実行できますか?
- 9. Cassandraは単一ノードクラスタ上のHBaseより高速ですか?
- 10. HbaseエクスポートテーブルでMapReduceを実行しています。値クラスのデシリアライザが見つかりませんでした: 'org.apache.hadoop.hbase.client.Result
- 11. Hbase HMasterが実行されていない
- 12. Appiumを使用して2台の実際のアンドロイドデバイスを並行して実行しています。
- 13. サブクエリエラー、以下のクエリを実行している場合
- 14. R:以下のRコードを実行している場合model.matrix
- 15. GeoMesa on HBase高速インポート
- 16. 高速レーンをインストールする。シミュレータ上で.appを実行してトラビスでオートメーションを実行する
- 17. hbaseでのデータ挿入時にhadoopジョブを実行する
- 18. Hbase REST API:Timerangeスキャン
- 19. 分散Hadoop上でHBaseをセットアップする際のエラー、ZooKeeperServerが実行されていない
- 20. 複数のマシンでPsExecを並行して実行したい
- 21. Hbaseで非正規化を実行するには?
- 22. は、このPowerShellコマンドを実行している場合は1台
- 23. TokuDB:私は2つの同時実行文実行している場合テーブルロック
- 24. 実行中に "JAVA_HOMEが設定されていません"というHBase
- 25. NoClassDefFoundからcmdを実行していてEclipseでは実行していない場合
- 26. ブックを1秒以上開いている場合にのみスクリプトを実行します。
- 27. HbaseでHadoopを実行するためのプラットフォーム
- 28. HDP 2.4上でSpark 2を実行しています
- 29. どのようにフィルタ行キーの一部でHBaseのスキャン?
- 30. cpuがプロセスを実行している場合、誰がカーネルを実行していますか?
mapreduceプログラムを使用すると、スキャンを高速化し、マッパークラスのみを使用できます。 – userRaj