2017-04-25 32 views
1

pysparkとpythonの新機能です。 numpy.savetxt("test.csv",file,delimiter=',') を使用してローカルシステムにファイルを保存した後、私はosを使用してそのファイルを削除しています。 os.remove("test.csv")。エラーが発生しましたjava.io.FileNotFoundExceptionファイルファイル:/someDir/test.csvは存在しません。ファイルnumpy.savetxt()は、読み取り権限のみを持つファイルを作成します。どのように読み書きの許可で同じものを保存することができます。 スパークバージョン2.1の使用pysparkでnumpy.savetxtを使用して作成されたcsvファイルを削除する

+0

sparkはおそらく、ファイルをローカルに保存するためにnumpyのapisを使用しているため、ここでは何もしません。 'numpy.savetxt'の後にファイルが実際にローカルシステムに存在するかどうかを手動でチェックしましたか? – Pushkr

+0

はい、ローカルシステム上に存在します。最近私が観察したもう一つの事は、pysparkシェルからそのCSVファイルを読むことができないということです。 –

+1

ローカルファイルシステムから読み込むには、 'filerdd = sc.textFile(" file:///path/to/file.txt ")のような完全なアドレスを与える必要があります。' – Pushkr

答えて

1

スパーク作業員のように見えますが、ファイルにアクセスできません。マスターとワーカーを異なるサーバーで実行している可能性があります。ファイルを処理しようとしているときに、別のマシンにまたがって作業員を設定すると、これらの作業者がファイルにアクセスできるようになります。同じ場所にあるすべての作業者に同じファイルのコピーを保存できます。 "hdfs:// path/file"のようなHadoopのようなDFSを使用することは常に推奨されます。あなたがするとき、労働者はこれらのファイルにアクセスすることができます。 詳細: Spark: how to use SparkContext.textFile for local file system

+0

Ya、正しい。それはまさに起こったことです。 –

関連する問題