1
HDFSの寄木細工ファイルにアクセスする必要があるジョブがあり、ネットワークのアクティビティを最小限に抑えたいと考えています。これまでのところ、HDFS DatanodesとSpark Workersは同じノードで起動されていますが、私の仕事を開始すると、データはすべてのノードに分散されるため、常にNODE_LOCALになる必要があります。SparkのスタンドアロンとHDFSを使用したデータローカリティ
データがあるタスクを開始するようにSparkに指示するオプションはありますか?
を私は30でこれを設定しようとしたが、でもこれで私はまだ地域レベルの多くを参照してください。私はあなたのタスクは、最後にはどうすればよいの長いログ –
を見ANYとき? –
タスクが30秒未満で実行されていて、その時間にハングアップしていないと思われます –