0
は、私は次の操作を実行するためのMapReduceジョブを書きたいと思います:のMapReduce、HDFS入力、ハイブのテーブル出力
- 読むHDFSファイル。
- 読み取りレコードが既にテーブル(Hive/Hbase)に存在することを確認します。
- 存在する場合は、更新操作を実行します。存在しない場合は、テーブルにデータを書き込み/挿入します(Hive/Hbase)。
上記のプロセスを毎日繰り返す。
質問:
- それはハイブとロジックの上に実装することは可能ですか?
- MRジョブの書き込み方法は?上記のロジックを実装するための任意の例?
ありがとうございました。私はHive/Hbaseテーブルにデータを挿入する前に、いくつかのデータ操作を実行する必要があります。 Hiveでデータ操作を行うことは可能ですか?あなたはユーティリティストリームによって何を意味しますか? – Ravi
カスタムマッパーとレデューサーを使用してファイルをスキャンできるjarがあります。シンプルなマップレデューサージョブの作成を開始するには、簡単で良い方法です。 Googleのハープ・ストリーミング – ozw1z5rd
ありがとうございます。私はGoogleで検索します。私はHive/Hbaseテーブルにデータを挿入する前に、いくつかのデータ操作を実行する必要があります。 Hiveでデータ操作を行うことは可能ですか?この疑問に何らかの疑惑がありますか? – Ravi