構造化されたデータを含むhdtfに大きなファイルが格納されているとします。ここでの目的は、ファイル内のすべての行のように、2番目の列の値がそうであるように、ファイル内のデータの一部だけを処理することです。 hdfsがファイルの関連する部分だけをストリームし、すべてをマッパーにストリーミングするようなMRジョブを起動することは可能ですか?HDFSファイルの一部でMRジョブを実行
私が必要とする部分だけで仕事のスピードを速めたいのです。おそらく1つのアプローチは、MRジョブを実行して新しいファイルを作成することですが、それを回避できるかどうか疑問に思っていますか?
目的はHDFSにデータを保存することであり、データベースから読み書きすることは望ましくありません。
0.92で導入されたコプロセッサは、フィルタと同様のデータをフィルタ処理するためにも使用できます。コプロセッサとフィルタの違いは何ですか。私が考えることの1つは、フィルターがクライアントで定義され、コプロセッサーがサーバー上で定義されているということです。したがって、コプロセッサはクライアント間で再利用可能です。注目すべきは、フィルタとコプロセッサの両方がサーバ上で実行され、クライアントに送信されるデータを削減することです。 –
良い点Praveen。しかし、私の理解では、コプロセッサはベースHDFS M/Rではなく、ベース専用です –
Chris - HBaseでベースではないのですか? MRで使用されているコプロセッサを停止させているのは何ですか?コプロセッサとフィルタの違いについて、HBaseグループにクエリを投稿しましたが、応答がありませんでした。 –