2016-05-03 4 views
0

こんにちは私は対話的にpysparkを使用しています。私は、ローカルファイルを正しく読み込むことができないと思います。pyspark:現在のディレクトリを表示するには?

現在のディレクトリを確認するにはどうすればよいですか?ブラウザにアクセスしてその実際のファイルを確認できますか?

または、pysparkのデフォルトのディレクトリは?ありがとう

答えて

2

同じパスのすべてのワーカーに同じファイルがない限り、ローカルファイルをロードできません。たとえば、sparkのdata.csvファイルを読み込む場合は、このファイルを同じパスのすべてのワーカー(たとえば、/tmp/data.csv)にコピーします。 sc.textFile( "file:///tmp/data.csv")を使用してRDDを作成できます。

現在の作業ディレクトリは、pysparkを起動したフォルダです。 ipythonを使用してpysparkを起動し、pwdコマンドを実行して作業ディレクトリを確認できます。 [ipythonを使用するためにspark-env.shのPYSPARK_DRIVER_PYTHON =/path/to/ipythonを設定]

関連する問題