WindowsError呼び出しsc.parallelize（）

-2

私は sc.parallelize()機能を使用したいが、私はそれを呼び出すようにしようとするたびに、私は以下のエラーを取得

：それはあなたのエラーに関連するかどうWindowsError呼び出しsc.parallelize（）

File "V:/PyCharmProjects/sample.py", line 9, in <module> 

input_data = sc.parallelize(sc.textFile("C:\Users\Spider\Desktop\GM_coding\Sample Data.csv")) 

File "V:\spark-2.2.0-bin-hadoop2.7\python\pyspark\context.py", line 497, in parallelize os.unlink(tempFile.name) 

WindowsError: [Error 32] The process cannot access the file because it is being used by another process: u'C:\\Users\\Spider\\AppData\\Local\\Temp\\spark-fef6debd-ff91-4fb6-85dc-8c3a1da9690a\\pyspark-6ed523e7-358f-4e3c-ad83-a479fb8ecc52\\tmpxffhfi'

出典

2017-12-07 lucky88shp

フラグの割り当てが足りなくなっています...もっと詳しく記述できますか？明らかに、別のプロセスが依然としてリソースにアクセスしています。使用しているファイルを削除する必要があります：https://superuser.com/questions/2937/how-do-i-delete-a-folder-thats-in-use – user1767754

コメントありがとうございました！私がしようとしているのは、parallelize（）関数を使うことだけです。新鮮なブーツでも、私はこのエラーが発生します。私は関連するプロセスを探してみましたが、何も見つかりませんでした。 – lucky88shp

回答が役に立ちましたか？ – desertnaut

わからないが（Windowsではテストできませんが）parallelizeにはすでにRDD（すなわち "並列化"）されているものがあります。 docsから：

textFile(name, minPartitions=None, use_unicode=True)

Read a text file from HDFS, a local file system (available on all nodes), or any Hadoop-supported file system URI, and return it as an RDD of Strings.

あなたは必要ありません（と使用しないでください）ここsc.parallelize()。 sc.textFileの出力はすでにRDDです。 the quick start guideでも例を参照してくださいあなたは、単に

input_data = sc.textFile("C:\Users\Spider\Desktop\GM_coding\Sample Data.csv")

のために行く必要があります。

出典

2017-12-07 17:29:31 desertnaut

WindowsError呼び出しsc.parallelize（）

答えて

関連する問題