SparkのスタンドアロンとHDFSを使用したデータローカリティ

HDFSの寄木細工ファイルにアクセスする必要があるジョブがあり、ネットワークのアクティビティを最小限に抑えたいと考えています。これまでのところ、HDFS DatanodesとSpark Workersは同じノードで起動されていますが、私の仕事を開始すると、データはすべてのノードに分散されるため、常にNODE_LOCALになる必要があります。SparkのスタンドアロンとHDFSを使用したデータローカリティ

データがあるタスクを開始するようにSparkに指示するオプションはありますか？

出典

2016-11-29 Paul Trehiou

あなたが探しているプロパティはspark.locality.waitです。その値を増やすと、よりローカルにジョブが実行されます。データが常駐しているという理由だけで、他のワーカーにデータを送信することはありません。値を高く設定すると実行時間が長くなる可能性がありますが、作業者を効率的に使用しないためです。

もここを見て： http://spark.apache.org/docs/latest/configuration.html

出典

2016-11-29 14:28:47

を私は30でこれを設定しようとしたが、でもこれで私はまだ地域レベルの多くを参照してください。私はあなたのタスクは、最後にはどうすればよいの長いログ –

を見ANYとき？ –

タスクが30秒未満で実行されていて、その時間にハングアップしていないと思われます –

SparkのスタンドアロンとHDFSを使用したデータローカリティ

答えて

関連する問題