HDFSが使用されていない場合のデータローカリティ

HadoopのMap/Reduce部分のデータローカリティ機能は、MySqlサーバなどのHDFS以外の別のストレージを提供するとどうなりますか？言い換えれば、Hadoop Map/Reduceはデータローカリティを使用してデータと同じノード上でマップタスクを起動しようとしますが、データがsqlサーバーに格納されると、タスクノードにローカルデータは存在しません。すべてのデータはSQL Serverノードにあります。その場合、データの局所性が失われるか、データの局所性の定義が変化していますか？それが変わったら、新しい定義は何ですか？HDFSが使用されていない場合のデータローカリティ

出典

2012-02-07 iCode

Hadoopのどの部分ですか？ MapReduce？ –

あなたの質問を理解できません！ – Debaditya

私は質問を更新しました。うまくいけば、それは今より明らかです。 – iCode

データがクラスタ内に存在しない場合、データのローカリティはありません。すべてのデータをリモートソースからコピーする必要があります。これは、HDFSのデータを含むノードでタスクを実行できない場合と同じです。 S3、HBase、DBなどのリモートソースを使用するいくつかの入力フォーマットがあります。 HDFSにあなたのデータを入れることができればそれは素晴らしいことです。私は頻繁に更新される少量のデータのためにリモートソースとしてMongoを頻繁に使用しており、結果に満足しています。

出典

2012-02-07 06:31:56

お返事ありがとうございます。少量のデータが何を意味するのか考えてみてください。また、あなたはこの小さなために起動する同時マッパーをいくつですか？私は全体像を得たいだけです。 – iCode

私の最大のテーブルはおそらくMongoで20MBです。私はちょうど1マッパーを使用します。使用するマッパーの数は、シャーディングに依存します。 https://github.com/mongodb/mongo-hadoopをご覧ください。 –

これは、ネットワーク帯域幅によって制限されるサイズを追加する必要があります。 –

HDFSが使用されていない場合のデータローカリティ

答えて

関連する問題