hbaseテーブルに20kファイルをバルクロードしようとしています。平均ファイルサイズは400kbです。しかし、ファイルのいくつかは70MBもの大きさです。すべてのファイルの合計サイズは11GBです。 アプローチは標準であり、loadIncremenalFilesの呼び出しに続いてキー値のペアが発行されます。 10個のファイルのランダムサンプルのコードを実行すると、すべて動作します。私は生成されたhfilesのサイズがファイル自体の1.3倍であることに留意しました。 しかし、すべての20kファイルに対して同じコードを実行すると、hfilesが得られます.hfilesは400GBのサイズです。データそのものの36倍。 HFilesには、テーブルデータに加えてインデックスとメタデータが含まれていますが、このようなサイズの劇的な増加を説明できるものはありますか?hbaseバルクロードで異常な動作が発生する
1
A
答えて
1
私は宇宙の劇的な増加の背後にある理由を発見しました。
これは、私のマッパーがキーの値のペアを照合したものです(入力はシーケンスファイルでした)。
public void map(Text key, BytesWritable value, Context context)
....
byte[] row = Bytes.toBytes(rowID);
hKey.set(row);
kv=getKV(familyRaw, Bytes.toBytes("content"), value.getBytes());
問題はvalue.getBytes()
です。 0で埋められたバイト配列を返します。それをvalue.copyBytes()
に変更すると、動作が修正されました。
これについては、HADOOP-6298
関連する問題
- 1. カスタムビューで異常な動作が発生する
- 2. CodeIgniter sess_destroyで異常な動作が発生する
- 3. フォームで異常な動作が発生する
- 4. javascriptマップ/オブジェクトで異常な動作が発生する
- 5. uinavigationcontrollerの異常な動作UIButtonでクリックすると例外が発生する
- 6. Xamarinフォーム:Xamarin.Forms.Colorを返す関数で異常な動作が発生する
- 7. RegQueryValueExで異常な動作が発生する他のレジスタの戻り値
- 8. Visual Studio 2013でリストの初期化に異常な動作が発生する
- 9. mavenプロパティプラグイン: "mvn deploy"を実行すると異常な動作が発生する
- 10. Azure App Servicesで異常なソケットタイムアウトが発生するが、ローカルで正常に動作する
- 11. 最初のクリックが発生すると、異常なmd-checkboxの動作が発生する
- 12. Anko DSL recyclerviewは、アイテムの追加中に異常な動作が発生する
- 13. 配列の解析時に異常な動作が発生する
- 14. ディレクトリ作成で異常なエラーが発生しました
- 15. 単位行列の作成でパフォーマンス異常が発生する
- 16. 移行中にiOS11でキーボードの動作が異常に発生する
- 17. Javaアプリケーションでの異常な動作(Eclipseで動作しても、java -jarでエラーが発生します)
- 18. C# - XElementの解析中に異常な動作が発生しました
- 19. デバッグ中に異常な動作が発生しました。ブール値
- 20. python:テキストファイルで異常なクラッシュが発生する
- 21. iOSアプリのバックグラウンドで異常なクラッシュが発生する
- 22. gdbで異常なクラッシュが発生する
- 23. Laravel 5.2 Azureで異常なエラーが発生する
- 24. githubリポジトリで異常なスーパーバイザエラーが発生する
- 25. coord_trans()をカスタム変換で使用するとggplotで異常なgeom_vline()の動作が発生する
- 26. Hbaseでテーブルを作成中にhbase.MasterNotRunningExceptionが発生する
- 27. Xcodeで異常な動作ですか?
- 28. マルチウィンドウモードに入るときに異常なライフサイクルコールバックが発生する
- 29. Javaからファイルを読み込んでいるときに異常な動作が発生する
- 30. C++でイニシャライザリストを使用しているときに異常な動作が発生する