2012-02-07 18 views
2

HadoopのMap/Reduce部分のデータローカリティ機能は、MySqlサーバなどのHDFS以外の別のストレージを提供するとどうなりますか?言い換えれば、Hadoop Map/Reduceはデータローカリティを使用してデータと同じノード上でマップタスクを起動しようとしますが、データがsqlサーバーに格納されると、タスクノードにローカルデータは存在しません。すべてのデータはSQL Serverノードにあります。その場合、データの局所性が失われるか、データの局所性の定義が変化していますか?それが変わったら、新しい定義は何ですか?HDFSが使用されていない場合のデータローカリティ

+0

Hadoopのどの部分ですか? MapReduce? –

+0

あなたの質問を理解できません! – Debaditya

+0

私は質問を更新しました。うまくいけば、それは今より明らかです。 – iCode

答えて

3

データがクラスタ内に存在しない場合、データのローカリティはありません。すべてのデータをリモートソースからコピーする必要があります。これは、HDFSのデータを含むノードでタスクを実行できない場合と同じです。 S3、HBase、DBなどのリモートソースを使用するいくつかの入力フォーマットがあります。 HDFSにあなたのデータを入れることができればそれは素晴らしいことです。私は頻繁に更新される少量のデータのためにリモートソースとしてMongoを頻繁に使用しており、結果に満足しています。

+0

お返事ありがとうございます。少量のデータが何を意味するのか考えてみてください。また、あなたはこの小さなために起動する同時マッパーをいくつですか?私は全体像を得たいだけです。 – iCode

+0

私の最大のテーブルはおそらくMongoで20MBです。私はちょうど1マッパーを使用します。使用するマッパーの数は、シャーディングに依存します。 https://github.com/mongodb/mongo-hadoopをご覧ください。 –

+0

これは、ネットワーク帯域幅によって制限されるサイズを追加する必要があります。 –

関連する問題