複数のデータセンター間でデータノードのパフォーマンスをテストしようとした人はいますか?特に小さなパイプを持つネットワーク上で。あまりにも多くの情報を見つけられず、私が見つけた情報は古いもの(2010年頃)または独自のもの(DataStaxに何かがあるようです)です。 Hadoopがラック認識をサポートしていることは分かっていますが、複数のデータセンターのシステムをチューニングするためのドキュメントはありませんでした。複数のデータセンターにわたってデータノードを分散する
6
A
答えて
5
約120マイル離れた2つのデータセンター間で2:1の比率で配置された12 x DataNodeクラスターで試しました。データセンタ間のレイテンシは、2 x 1GbEパイプにわたって約4msでした。
2つのラックがサイトAに構成され、1つのラックがサイトBに構成されています。各「ラック」には4台のマシンがあります。基本的にサイトBを「DR」サイトとしてテストしていました。レプリケーションファクタは3に設定されました。
短いストーリーで動作しますが、パフォーマンスは本当に悪いです。書き込みI/Oを縮小するためには、ソース上で圧縮を使用し、出力をマップし、減らす必要があります。また、サイト間のリンクが他の目的に使用されている場合、データ転送中にタイムアウトが発生します。 TCPウィンドウ処理は、1GbE回線で100MBps +の代わりに約4MBpsへの転送を効果的に制限します。
自分自身を頭痛から守り、distcpジョブを使ってデータを複製してください!
関連する問題
- 1. Apache Zookeeper:データセンター間のノードの分散
- 2. データノードのエラーHadoop 2.7.3シングルノード(擬似分散モード)
- 3. 複数のアセンブリにわたって部分的なメソッドを実装する
- 4. 複数行にわたって文字列リテラルを分割する
- 5. Javaの複数のスレッドにワークロードを動的に分散する
- 6. 複数のデータセットにわたる特定の変数の分散の計算方法R
- 7. 複数のオブジェクトの分散管理?
- 8. 複数のスレッドにわたってリポジトリクラスオブジェクトを使用する
- 9. Excel - 複数のワークシートにわたってテキストを使用する
- 10. 複数のプロジェクトにわたってTFSを整理する
- 11. 複数のデータフレームにわたって平均を計算する
- 12. イミニュートを使ったPythonの共分散
- 13. 複数のデータセンターにMongoDBをセットアップするには?ここ
- 14. TensorFlow:複数の次元にわたってL2ノルムを取る
- 15. 1つのアプリケーションを複数のサーバーに分散して監視する
- 16. 複数のウェブページにわたってrvestを使ってrにある
- 17. Akkaを使った分散型DDDエンティティ
- 18. 分散間違った計算のC#
- 19. Namenodesは、HDFS連合の完全分散型hadoopクラスタですべてのデータノードを使用していません
- 20. 複数の分散ビルドクラスタを管理する方法
- 21. 複数のページにわたって変数を格納するにはlocalStorage?
- 22. 分散キャッシュ製品内で複数の分散マップ上で動作するトランザクションを伝える方法
- 23. Javaの複数のファイルから分散データを読み取る
- 24. 複数のアーキテクチャにわたってライブラリをビルドするためのMakefile
- 25. igraphを使ってRに複数の離散ネットワークを描画する
- 26. 重複した要求を避けるための分散キャッシング
- 27. 回帰直線からの残差距離に応じて散布図を色分けするための戦略 - 変数の範囲にわたって
- 28. ASP.NET MVC:複数のリクエストにわたってTempDataを保持
- 29. クライアントソケットは複数のソケットに接続し、空きソケットに向かって負荷を分散します
- 30. 複数のサーバー間で要求を分散する最適な負荷分散アルゴリズム