データをHadoopファイルシステムに同期します。このデータは、スケジュールされたMapReduceジョブの入力として使用されます。データをHBase/HDFSに同期させ、MapReduceジョブへの入力として使用します
この例では、より多くを説明するかもしれない:
は、これらの言葉は、MapReduceのWORDCOUNTジョブの入力として必要とされ、私は言葉の束を含む文書の入力ストリームを考えてみましょう。したがって、各文書について、すべての単語を解析してファイルシステムにアップロードする必要があります。しかし、同じ文書が再び入力ストリームから到着した場合、変更内容をファイルシステムからアップロード(または削除)したいだけです。
データはどのように保存する必要がありますか。 HDFSまたはHBaseを使用すべきですか?データ量はそれほど大きくなく、多分数GBです。
HDFSまたはHBaseの入力を使用してスケジュールされたMapReduceジョブを開始することはできますか?