Windows 7のJupyterノート(Python 2.7)でPySparkで作業しています。pyspark.rdd.PipelinedRDD
というRDDがidSums
と呼ばれています。 idSums.saveAsTextFile("Output")
を実行しようとすると、私は、次のエラーが表示さ:私はエラーなしで他のアクションを実行することが可能だから(null)PysparkのsaveAsTextFile()内のコマンド文字列例外
Py4JJavaError: An error occurred while calling o834.saveAsTextFile.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 33.0 failed 1 times, most recent failure: Lost task 1.0 in stage 33.0 (TID 131, localhost): java.io.IOException: (null) entry in command string: null chmod 0644 C:\Users\seride\Desktop\Experiments\PySpark\Output\_temporary\0\_temporary\attempt_201611231307_0033_m_000001_131\part-00001
を例えば、私の意見では、RDDオブジェクトに問題があるべきではありませんidSums.collect()
を実行すると正しい出力が得られます。
さらに、Output
ディレクトリが作成され(すべてのサブディレクトリで)、ファイルpart-00001
が作成されますが、0バイトです。
この解決策は機能します。ありがとうございました! sparkはhadoopなしで実行できますが(@HapreetVarmaを知っているように)、機能は低下しています。 –