Spark（PySpark）ファイルが既に存在する例外

データフレームをテキストファイルとして保存しようとしていますが、ファイルがすでに存在するという例外が発生しています。私はコードにモードを追加しようとしましたが、無駄になりました。さらに、ファイルは実際には存在しません。誰も私がこの問題をどのように解決できるか考えているだろうか？Spark（PySpark）ファイルが既に存在する例外

distFile = sc.textFile("/Users/jeremy/Downloads/sample2.nq") 
mapper = distFile.map(lambda q: __q2v(q)) 
reducer = mapper.reduceByKey(lambda a, b: a + os.linesep + b) 
data_frame = reducer.toDF(["context", "triples"]) 
data_frame.coalesce(1).write.partitionBy("context").text("/Users/jeremy/Desktop/so")

私は例外がいくつかの時間後に、一部のデータが実際に（明らかに削除された）一時ファイルに格納されていることを提起されていることを追加することができます：私は、これはコードですPySpark

を使用しています。

ありがとうございます！

編集：例外は、ここで見つけることができます：https://gist.github.com/jerdeb/c30f65dc632fb997af289dac4d40c743

出典

2017-11-30 jerdeb

ファイルを置き換えるか、同じファイルにデータを追加するためのoverwriteまたはappendを使用することができます。

data_frame.coalesce(1).write.mode('overwrite').partitionBy("context").text("/Users/jeremy/Desktop/so")

または

data_frame.coalesce(1).write.mode('append').partitionBy("context").text("/Users/jeremy/Desktop/so")

出典

2017-12-01 04:22:19

私はすでにことを試してみましたが、それはまだあなたのエラーまたは例外を示し、例外:( – jerdeb

を与えた –

私はここで例外をアップロードしています。HTTPS：//gist.github .com/jerdeb/c30f65dc632fb997af289dac4d40c743 – jerdeb

Spark（PySpark）ファイルが既に存在する例外

答えて

関連する問題