2017-11-30 4 views
2

データフレームをテキストファイルとして保存しようとしていますが、ファイルがすでに存在するという例外が発生しています。私はコードにモードを追加しようとしましたが、無駄になりました。さらに、ファイルは実際には存在しません。誰も私がこの問題をどのように解決できるか考えているだろうか?Spark(PySpark)ファイルが既に存在する例外

distFile = sc.textFile("/Users/jeremy/Downloads/sample2.nq") 
mapper = distFile.map(lambda q: __q2v(q)) 
reducer = mapper.reduceByKey(lambda a, b: a + os.linesep + b) 
data_frame = reducer.toDF(["context", "triples"]) 
data_frame.coalesce(1).write.partitionBy("context").text("/Users/jeremy/Desktop/so") 

私は例外がいくつかの時間後に、一部のデータが実際に(明らかに削除された)一時ファイルに格納されていることを提起されていることを追加することができます:私は、これはコードですPySpark

を使用しています。

ありがとうございます!

編集:例外は、ここで見つけることができます:https://gist.github.com/jerdeb/c30f65dc632fb997af289dac4d40c743

答えて

0

ファイルを置き換えるか、同じファイルにデータを追加するためのoverwriteまたはappendを使用することができます。

data_frame.coalesce(1).write.mode('overwrite').partitionBy("context").text("/Users/jeremy/Desktop/so") 

または

data_frame.coalesce(1).write.mode('append').partitionBy("context").text("/Users/jeremy/Desktop/so") 
+0

私はすでにことを試してみましたが、それはまだあなたのエラーまたは例外を示し、例外:( – jerdeb

+0

を与えた –

+0

私はここで例外をアップロードしています。HTTPS://gist.github .com/jerdeb/c30f65dc632fb997af289dac4d40c743 – jerdeb

関連する問題