私の質問に興味をお持ちいただきありがとうございます。 始めに、私はHadoop & HBaseの新機能をご紹介します。これまでのところ、Hadoopは非常に興味深く、将来的にはより多くの貢献をしたいと考えています。HBaseのキーバリュー圧縮?
私は主にHBaseのパフォーマンスを向上させることに興味があります。これを行うために、HBaseの/io/hfile/Hfile.java
のメソッドをWriter
に変更しました。これは、高速バッファリングされたデータアセンブリを行い、HBaseによって後でロードできるように直接Hadoopに書き込む方法です。
ここで、帯域幅を節約できるように、キーと値のペアを圧縮する方法を考え出しています。私はどのように把握するために多くの研究をしました。 HBaseに圧縮ライブラリが組み込まれていることに気付きました。
私は現在SequenceFileを見ています(1); setCompressMapOutput (2)(非推奨)。クラス圧縮(3)です。また、ApacheのMapReduceにtutorialが見つかりました。
誰かが "SequenceFile"とは何か、そしてそれらの圧縮ライブラリとアルゴリズムをどのように実装できますか?これらの異なるクラスとドキュメントは、私にとってとても混乱しています。
ご協力いただき誠にありがとうございます。
-
ハイパーリンク:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
( 2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3):www.apache.org/dist/ hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html
+1 - たくさんのユーザーにとって参考になるはずです –