apache sparkにジオ認知がありますか？

私は異なるサイト間でapache sparkクラスタのトポロジを選択しようとしています。スパークはそれ自体の認識能力を持っていますか？apache sparkにジオ認知がありますか？

たとえば、オレゴン州とペナン州の労働者を含むクラスタを想定します。

アプリケーションを提出すると、アプリケーションをロードしてオレゴンからデータを処理し、オレゴンに保存し直します。オレゴン州の労働者が優先される（無料の場合）か？この件に関するドキュメントが見つかりませんでした。

2016-08-19 Yosi Dahari

スパーク自体はジオ対応ではありません。すなわち、オレゴン州とペナンに労働者がいて、データがそこにあるので、オレゴン州でのみ作業をキューに入れているかどうかはわかりません。ネットワークの待ち時間が最小限であるワーカーで特定のジョブが実行されるように、クラスタを構築する必要があります。 –

ここで説明したようにhttps://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html

スパークは、データが置かれている場所へのスパークジョブが敏感になり、データソースへのデータの配置または近接別名、データの局所性に依存しています。そのため、Hadoop YARNクラスタでSparkを実行することは、データがHDFSからのものである場合には重要です。データシステム自体が地理的に対応していてもよい。キャッサンドラ：Does Spark use data locality?http://www.slideshare.net/RussellSpitzer/spark-cassandralocality

出典

2016-08-19 12:25:10

apache sparkにジオ認知がありますか？

答えて

関連する問題