2017-04-12 10 views
0

各ノードが読み取る必要のあるファイルがマスターノードにあります。どうすればこれを可能にすることができますか? HadoopのMapReduceでは私が使ったのはHadoopのDistribuitedCacheに類似した各ノードからファイルを読み込みます。

DistribuitedCache.getLocalCacheFiles(context.getConfiguration()) 

どのようにしてノード間のファイル共有ができますか? RAMとブロードキャスト変数にファイルをロードする必要がありますか?または、SparkContext設定でファイルのパス(絶対パス)を指定するだけで、すべてのノードで即座に使用できるようにできますか?

答えて

0

分散キャッシュからファイルを読み込むためにSparkFilesを使用できます。ここでは、例えば、 "ファイル" パラメータを提出スパークの

import org.apache.spark.SparkFiles 
import org.apache.hadoop.fs.Path 

sc.addFile("/path/to/file.txt") 
val pathOnWorkerNode = new Path(SparkFiles.get("file.txt")) 
関連する問題