0
シナリオ:MapReduceでHDFSの代わりにHBaseを使用
私はテラバイトのデータを分析し、その上にテキストマイニングを行い、そのデータをHDFSファイルに保存します。次に、データを照会するために、このデータをHiveにインポートします。
ただし、増分データに対していくつかの更新操作を実行する必要もあります。たとえば、新規および古いデータに同じ行キーが存在する場合は、挿入するのではなくデータを更新します。
現在、私はHDFSを使用して上記の操作を行っています。今では、読み書き操作でHBaseに移行することを考えています。
このアプローチのパフォーマンスの長所と短所を知りたいHDFSと比較してMapReduceでHBaseの読み書きを使用する (データストアとしてのHBaseを使用)
mapreduceジョブを実行するたびにすべてのデータをhdfsで使用すると、hbaseからhfds txtまたはparquetに比べて毎回すべてのデータが読み込まれますファイル – halil
@halil貴重なご意見ありがとうございます。 –
@halil hbaseやhdfsをサポートしていますか?あなたのコメントはあいまいでした。 –