私はまだhadoopには新しく、いくつかのサンプル演習で少しは学んでいましたが、実際にどのように使用されているのかという質問がありました。多くのアプリケーションは、バッチ処理(ログファイルデータなど)に適しているようですが、hbaseがここにどのように適合するかはわかりません。Hadoop Hbase workflow
ログファイルのデータをhbaseに保存してから、別のストレージ形式に処理して出力するのは一般的ですか? rawログファイルをhadoopに渡し、出力をhbaseに保存する方が一般的ですか?私の本当の質問は、典型的には、hbaseがhadoopの入力または出力、あるいはその両方として使われていると思いますか?
これは意味があります。入力データをhbaseに保存したい場合がありますか? –
確かに、例えば複数のマシンを書いている場合、HBaseはそれを扱うことができます。ログを処理するためにMapReduceジョブを実行している場合、HBase RegionServersでMappersとReducers(入力と出力)の両方を実行すると、それらのジョブはより効率的になります。なぜなら、データはコピーする必要がないからですターゲットストレージノードへのネットワーク。 –
クール、ありがとう。入力を気に入ってください。 –