2017-07-18 14 views
0

私たちは毎日エアロスパイクをスキャンし、スキャンの結果から何かを得るでしょう。 ここでは、スキャンを地図削減ジョブに変更することを考えています。しかし、私はこの試みが失敗するかもしれない何かがあることを知ります。スキャンジョブを複数のサブタスクに分割する簡単な方法が見つかりませんでした。たとえば、私は8つのノードを1つの航空宇宙クラスターに持っていますが、マッパーのデータセットを配布できる唯一のパターンは、8つのマッパーを使って8つのノードをスキャンすることです。 1つのノードに4つのセットがありますが、もちろん、より多くのマッパーを使用してノードの各セットをスキャンできますが、これは各マッパーのデータセットの不均衡を引き起こします。エアスパイクスキャンジョブをマップリダクションモードに変更するにはどうすればよいですか?

複数のプロセスを使用して1つのノードで1つのセットをスキャンする手段はありますか?

+1

AerospikeとHadoopをどのように結びつけるのですか?あるいは、さまざまなスキャン戦略について一般的に話しているのですが、データの一部をさまざまなアプリケーションノードに送信していますか? –

答えて

0

レコードを読み込んでデータを集約する場合は、ストリームUDFを考慮する必要があります。

関連する問題