2016-09-29 13 views
0

Google Cloud Dataprocクラスタで1つのマスターノードを使用すると、単一障害点が発生する可能性があります。予期しないマスター障害が発生した場合、クラスターを(より)弾力性のあるものにしたいと思います。Cloud Dataprocは高可用性をサポートしていますか?

高可用性という形式を使用するようにCloud Dataprocクラスタを設定することは可能ですか?単一のマスター障害のイベントを危険にさらすことはありませんか?理想的には私もそう何のカスタムソフトウェアが必要とされないであろうYARN/Hadoopの/ HDFS高可用性のための標準的な方法を使用したい(または必要。)

答えて

1

GoogleクラウドDataprocがに組み込まれて高可用性(HA)モードを持っていますサービス。 HAモードでは、Cloud DataprocクラスタはHDFS High AvailabilityYARN High Availabilityをサポートしており、両方のコンポーネントが単一ノードの障害/再起動に関わらず中断のないYARNとHDFS操作を可能にするように構成されています。

クラウドDataproc HAモードについて心に留めておくべきいくつかの重要な事柄があります。

  • は、HA機能は、すべてのノードがフェイルオーバー用にクラウドを通じて提出
  • ジョブをApache Zookeeperを使用ベータ
  • 中ですDataproc Jobs APIは、「高可用性」とはみなされず、対応するジョブドライバプログラムを実行するマスタノードの障害時にも終了します。

Cloud Dataproc HAモードの詳細については、see the documentationをご覧ください。ドキュメントには、Jobsツール/ APIの外でクラスタに作業を送信する方法についても説明しています。

関連する問題