2016-11-29 6 views
1

HDFSの寄木細工ファイルにアクセスする必要があるジョブがあり、ネットワークのアクティビティを最小限に抑えたいと考えています。これまでのところ、HDFS DatanodesとSpark Workersは同じノードで起動されていますが、私の仕事を開始すると、データはすべてのノードに分散されるため、常にNODE_LOCALになる必要があります。SparkのスタンドアロンとHDFSを使用したデータローカリティ

データがあるタスクを開始するようにSparkに指示するオプションはありますか?

答えて

3

あなたが探しているプロパティはspark.locality.waitです。その値を増やすと、よりローカルにジョブが実行されます。データが常駐しているという理由だけで、他のワーカーにデータを送信することはありません。値を高く設定すると実行時間が長くなる可能性がありますが、作業者を効率的に使用しないためです。

もここを見て: http://spark.apache.org/docs/latest/configuration.html

+0

を私は30でこれを設定しようとしたが、でもこれで私はまだ地域レベルの多くを参照してください。私はあなたのタスクは、最後にはどうすればよいの長いログ –

+0

を見ANYとき? –

+0

タスクが30秒未満で実行されていて、その時間にハングアップしていないと思われます –

関連する問題