2016-09-01 6 views
0

Hadoopのセールスポイントの1つは、データが計算されていることです。それはWASBとどのように機能しますか? MapReduceジョブを処理するときに、データのブロックが存在する場所でマップおよび縮小タスクが実行されます。このようにして、データの局所性が達成される。 HDInsightの場合、データはwasbに保存されます。 MapReduceを実行すると、データがwasbから計算ノードのそれぞれにコピーされ、処理が進められますか?その場合、計算ノードにデータをコピーする単一のチャネルがボトルネックになります。Azure HDInsightでのデータ配信の処理方法

どのようにデータがwasbに格納され、どのように処理中にデータが処理されるのか説明できますか?

+0

私はあなたが非常に高速なネットワークを持っていたら、データの局所性の使用は(HTTPを減少させることに注意することが重要であると思う:// www.bluedata.com/blog/2015/05/data-locality-is-irrelevant-for-hadoop/、このトピックについても複数の論文があります)。 azureデータセンタで重要な設計上の決定事項の1つは、ストレージがストレージアクセスレイテンシに影響を与えないように計算から厳密に分離されていることです。 –

答えて

0

Hadoopシステムの場合と同様に、データは計算時間(ジョブが実行されるとき)に個々のノードのメモリにロードされます。 WASBとの違いは、データがローカルディスクではなくAzureストレージアカウントからロードされることです。 Azureデータセンターのバックボーンの構築方法を考えると、パフォーマンスは一般にVMにローカルに接続されたディスクと同じです。

0

HDInsightクラスタは、Azureの任意の地域にあります。クラスタの読み込みが可能なストレージアカウントは、高いレイテンシを回避するために同じリージョンからのみ作成できます。 Azureはデータセンターで多くの作業を行い、パフォーマンスは同等です。あなたが詳細を知りたい場合は

、アシシュの引用は、この記事から来ている: https://blogs.msdn.microsoft.com/cindygross/2015/02/04/understanding-wasb-and-hadoop-storage-in-azure/

+0

ところで、WASBドライバについて知りたい人は、次のURLをご覧ください:https://github.com/apache/hadoop/tree/2e1d0ff4e901b8313c8d71869735b94ed8bc40a0/hadoop-tools/hadoop-azure/src/main/java/org/apache/hadoop/fs/azure – aggFTW