2017-03-28 9 views
0

私は1つのノードスパーククラスターを持ち、WholeTextFile APIまたはTextfile APIを使用してファイルを読み取り、解析します。スパークリモートサーバーからファイルを読み取る

sparkがリモートサーバーからファイルを読み取ることを許可することは知っていますか? Sparkノードにファイルが物理的に存在する必要があります。

+0

あなたはスパークストリーミングに見たいと思うでしょうし、リモートファイルを読み込むことができますが、はい、リモートファイルの読み取りが可能です。 –

+0

JavaStreamingContextでbinaryFiles APIまたはWholeTextFileを使用しているときに、この例を教えてください。 – AKC

答えて

0

あなたはFTP

import org.apache.spark.SparkFiles 
val filePath = "ftp://user:pwd/myhost/map/myinput.nt" 
sc.addFile(filePath) 
var fileName = SparkFiles.get(filePath.split("/").last) 
var file = sc.textFile(fileName) 
+0

FTPは、マシンをスパークするためにファイルをダウンロードしていることを意味しますか?もしそうなら、私は私の仕事が完了した後、スパークマシンからそれらを削除する必要がありますか?私の理解は正しいですか? – AKC

関連する問題