複数の列を持つrddがあり、 "age"という列を抽出する必要があります。私は試しました:RDD列を新しいRDDに抽出する
rddAge = df.rdd.map(lambda row: Row(age=row.age))
コードはエラーを返しません。しかし、私は単純にrddAge.count()を実行しようとするとき、私は非常に長いトレースバックを得る:
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 29.0 failed 10 times, most recent failure: Lost task 0.9 in stage 29.0 (TID 365, yp-spark-dal09-env5-0048): org.apache.spark.api.python.PythonException: Traceback (most recent call last): ...
私が間違ってそれをやっていますか?
おかげ
Spark 2
で
私のため正常に動作しますか? –
スタックトレースの重要なコンポーネントをダンプしません。 – Chinny84