私は、デフォルトでHDFSへの書き込み書き込みをしようとしています。現在、RDDでsaveAsTextFileを呼び出すと、ローカルのファイルシステムに書き込まれます。具体的には、私がこれを行う場合:デフォルトでHDFSに書き込むようにpysparkを設定するにはどうすればよいですか?
rdd = sc.parallelize([1,2,3,4,5])
rdd.saveAsTextFile("/tmp/sample")
これは/ tmp/sampleと呼ばれる私のローカルファイルシステム上のファイルに書き込みます。しかし、私が行う場合
rdd = sc.parallelize([1,2,3,4,5])
rdd.saveAsTextFile("hdfs://localhost:9000/tmp/sample")
それは私のローカルhdfsインスタンス上の適切な場所に保存されます。
設定または
rdd.saveAsTextFile("/tmp/sample")
は、デフォルトでHDFSに保存されます火花ように初期化する方法はありますか?私は
hdfs getconf -confKey fs.defaultFS
を実行したときに
は私が17/11/28 09:47:18 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
hdfs://localhost:9000
[チャットでこのディスカッションを続行しましょう](http://chat.stackoverflow.com/rooms/160033/discussion-between-djacobs7-and-desertnaut) – djacobs7