私は異なるサイト間でapache sparkクラスタのトポロジを選択しようとしています。スパークはそれ自体の認識能力を持っていますか?apache sparkにジオ認知がありますか?
たとえば、オレゴン州とペナン州の労働者を含むクラスタを想定します。
アプリケーションを提出すると、アプリケーションをロードしてオレゴンからデータを処理し、オレゴンに保存し直します。オレゴン州の労働者が優先される(無料の場合)か? この件に関するドキュメントが見つかりませんでした。
私は異なるサイト間でapache sparkクラスタのトポロジを選択しようとしています。スパークはそれ自体の認識能力を持っていますか?apache sparkにジオ認知がありますか?
たとえば、オレゴン州とペナン州の労働者を含むクラスタを想定します。
アプリケーションを提出すると、アプリケーションをロードしてオレゴンからデータを処理し、オレゴンに保存し直します。オレゴン州の労働者が優先される(無料の場合)か? この件に関するドキュメントが見つかりませんでした。
ここで説明したようにhttps://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html
スパークは、データが置かれている場所へのスパークジョブが敏感になり、データ ソースへのデータの配置または近接別名、データの局所性に依存しています。 そのため、Hadoop YARNクラスタ でSparkを実行することは、データがHDFSからのものである場合には重要です。 データシステム自体が地理的に対応していてもよい。キャッサンドラ:Does Spark use data locality?http://www.slideshare.net/RussellSpitzer/spark-cassandralocality
スパーク自体はジオ対応ではありません。すなわち、オレゴン州とペナンに労働者がいて、データがそこにあるので、オレゴン州でのみ作業をキューに入れているかどうかはわかりません。ネットワークの待ち時間が最小限であるワーカーで特定のジョブが実行されるように、クラスタを構築する必要があります。 –