pysparkでnumpy.savetxtを使用して作成されたcsvファイルを削除する

pysparkとpythonの新機能です。 numpy.savetxt("test.csv",file,delimiter=',') を使用してローカルシステムにファイルを保存した後、私はosを使用してそのファイルを削除しています。 os.remove("test.csv")。エラーが発生しましたjava.io.FileNotFoundExceptionファイルファイル：/someDir/test.csvは存在しません。ファイルnumpy.savetxt()は、読み取り権限のみを持つファイルを作成します。どのように読み書きの許可で同じものを保存することができます。スパークバージョン2.1の使用pysparkでnumpy.savetxtを使用して作成されたcsvファイルを削除する

出典

2017-04-25 Sunil Rao

sparkはおそらく、ファイルをローカルに保存するためにnumpyのapisを使用しているため、ここでは何もしません。 'numpy.savetxt'の後にファイルが実際にローカルシステムに存在するかどうかを手動でチェックしましたか？ – Pushkr

はい、ローカルシステム上に存在します。最近私が観察したもう一つの事は、pysparkシェルからそのCSVファイルを読むことができないということです。 –

ローカルファイルシステムから読み込むには、 'filerdd = sc.textFile（" file：///path/to/file.txt "）のような完全なアドレスを与える必要があります。' – Pushkr

スパーク作業員のように見えますが、ファイルにアクセスできません。マスターとワーカーを異なるサーバーで実行している可能性があります。ファイルを処理しようとしているときに、別のマシンにまたがって作業員を設定すると、これらの作業者がファイルにアクセスできるようになります。同じ場所にあるすべての作業者に同じファイルのコピーを保存できます。 "hdfs：// path/file"のようなHadoopのようなDFSを使用することは常に推奨されます。あなたがするとき、労働者はこれらのファイルにアクセスすることができます。詳細： Spark: how to use SparkContext.textFile for local file system

出典

2017-04-27 10:35:52

Ya、正しい。それはまさに起こったことです。 –

pysparkでnumpy.savetxtを使用して作成されたcsvファイルを削除する

答えて

関連する問題