2
多くのセンサーからの多くのイベントをほぼリアルタイムで処理する必要のある新しい世代の解析システムを設計しています。そして、私はHadoop
,Spark Streaming
またはFlink
のようなビッグデータ分析プラットフォームの1つを使用したいと考えています。MapReduce:HashMapをマッパーに渡す方法
各イベントを分析するには、テーブル(DB)からメタデータを使用するか、少なくともキャッシュされたマップにロードする必要があります。
問題は、各マッパーが複数のノードで並列化されることです。
だから私は扱うために二つのものがあります。
- まず、どのようにマッパーにHashMapを渡す/ロードするの?
- マッパー間でHashMapの一貫性を保つ方法はありますか?
DistributedCacheは、あなたが探しているものです - http://stackoverflow.com/questions/21239722/hadoop-distributedcache-is-deprecated-what-is-the-preferred-apiすべてのマッパーがメタデータファイルを利用できるようにすることができます。 –
DBを照会することによって、各マッパーの 'setup()'メソッドでハッシュマップを構築することもできます。 –
HadoopまたはSparkを使用しますか?解決策は全く異なることがあります。 また、すべてのマッパーが同じ情報を持つ必要がありますか、それとも各マッパー固有のものですか? –