Spark JavaRDDをHDFSに保存しようとしています。プロセスは正常に実行されましたが、HDFSに保存されたファイルは表示されません。以下は私のコードです。私はそれをローカルで実行しています。 (直接のIntelliJからmain()メソッドを実行している。)SparkからJavaRDDをHDFSに保存する
public static void main(String[] args){
String file = "/Path/to/file/abc.csv";
SparkConf conf = new SparkConf().setAppName("test").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> lines = sc.textFile(file);
JavaRDD<String > filteredLines = lines.filter(new Function<String, Boolean>() {
@Override
public Boolean call(String s) throws Exception {
return s.contains("Hollywood");
}
});
filteredLines.coalesce(1).saveAsObjectFile("hdfs://localhost:9000/input");
sc.close();
}
Iは、Spark 2.0とのHadoop 2.7.2でこのコードを実行しています。私のhadoopでは、site-site.xmlはlocalhost:9000として設定されています。私はhadoopのドキュメントで述べたように私のHDFS擬似分散クラスタを開始しています。
私はここで何が欠けていますか?
このコードをHadoop設定のあるマシンで実行していますか?一度だけホスト名で試してみてください。 – mrsrinivas
はい。同じマシンからコードを実行しています。 – user7005835