hadoopアーキテクチャを提案する

私は500万レコード（A）と40Kレコード（B）に一致するスクリプトを持っています。一致するものがあれば、メールは非同期的にキューに入れられます。hadoopアーキテクチャを提案する

Aの特定の属性がBと一致する場合に一致します。現在、このスクリプトは完了するまでに約1日かかります。

私はhadoopを使ってこの時間を3〜4時間と言いたいと思っています。

私はファイルにAを格納し、このファイルはMapperに入力されると思います。減速機をなくすことができます。

ディスクの読み込みを最小限に抑えるため、またはディスクの読み込みを行わないために、Bのストレージ戦略はどのようにすべきですか？私はどこにそれを保存する必要があります。 memcache、hdfsなど。 Memcacheは、実行時にディスクアクセスを排除するため、良い選択肢と思われます。しかし、提案は歓迎されます。

私はhadoopを初めて使っています。だから、このシナリオではどのようなアプローチが推奨されますか。

出典

2012-05-13 Rahul

私は適切な答えを与えることができません....
あなたのBファイルは、マッパーのメモリにそれらを入れるのに十分小さいですか？
その場合、Hadoopには分散キャッシュと呼ばれるメカニズムがあります。これにより、クラスタ内のすべてのノードにファイルを配布することができます。あなたの場合、Bをキャッシュファイルにして、configure（）を使ってメモリにロードし、マッパーで使用することができます。

DistributedCache.addCacheFile(/*B's path*/); //in run()

出典

2012-05-13 06:10:08

ヘンリー：正しく回答したと思います。分散キャッシュは、デフォルトで最大10GBのデータをキャッシュするように設定されています。 –

hadoopアーキテクチャを提案する

答えて

関連する問題