2013-02-11 9 views
6

複数のデータセンター間でデータノードのパフォーマンスをテストしようとした人はいますか?特に小さなパイプを持つネットワーク上で。あまりにも多くの情報を見つけられず、私が見つけた情報は古いもの(2010年頃)または独自のもの(DataStaxに何かがあるようです)です。 Hadoopがラック認識をサポートしていることは分かっていますが、複数のデータセンターのシステムをチューニングするためのドキュメントはありませんでした。複数のデータセンターにわたってデータノードを分散する

答えて

5

約120マイル離れた2つのデータセンター間で2:1の比率で配置された12 x DataNodeクラスターで試しました。データセンタ間のレイテンシは、2 x 1GbEパイプにわたって約4msでした。

2つのラックがサイトAに構成され、1つのラックがサイトBに構成されています。各「ラック」には4台のマシンがあります。基本的にサイトBを「DR」サイトとしてテストしていました。レプリケーションファクタは3に設定されました。

短いストーリーで動作しますが、パフォーマンスは本当に悪いです。書き込みI/Oを縮小するためには、ソース上で圧縮を使用し、出力をマップし、減らす必要があります。また、サイト間のリンクが他の目的に使用されている場合、データ転送中にタイムアウトが発生します。 TCPウィンドウ処理は、1GbE回線で100MBps +の代わりに約4MBpsへの転送を効果的に制限します。

自分自身を頭痛から守り、distcpジョブを使ってデータを複製してください!

関連する問題