2012-04-24 13 views
0

MRとHadoopの初心者です。 csvファイルに不足しているものを見つけるためのMRを書きました。正常に動作しています。 今私は、私はcsvファイルを解析し、それを関連カテゴリーでコード化する必要があるusecaseを持っています。入力ファイルのテキストをhadoopに置き換えてください。MR

例: "11、ABC、XYZ、51,61,78"、 "11、ADC、ryz、41,71,38"、.............

これを "1、abc、xyz、5,6,7"、 "1、adc、ryz、4,7,3"、.............

に置き換える必要があります

ここで私は10のモードをやっていますが、そこには異なるモードのモードがあります。 データサイズはgbです。

入力用のコンテンツをその場で置き換える方法を知りたいと思います。これはMRで達成可能ですか?

基本的に私は、ファイルハンドリングやhadoopベースの例を書くのを見たことがありません。

この時点で私はHBaseまたは他のdbツールに行きたくありません。

答えて

1

HDFSファイルは追加専用で編集できないため、データを置き換えることはできません。
あなたの目標を達成する最も簡単な方法は、外部テーブルとしてハイブにデータを登録し、HQLにtrnasformationを書き込むことです。
ハイブは、hadoopの横に座って、あなたのクエリをMRジョブに翻訳するシステムです。 その使用法は、HBASEの使用法として深刻なインフラストラクチャの決定ではありません

+0

これに取り組み、結果を出す予定です。 – kmkswamy

関連する問題