2016-09-01 4 views
0

私はRDDを作成しようとしていますが、作成していない、エラーを投げ捨てました。ValueError:RDDが空です - Pyspark(Windowsスタンドアロン)

data = records.map(lambda r: LabeledPoint(extract_label(r), extract_features(r))) 
first_point = data.first() 

Py4JJavaError        Traceback (most recent call last) 
<ipython-input-19-d713906000f8> in <module>() 
----> 1 first_point = data.first() 
    2 print "Raw data: " + str(first[2:]) 
    3 print "Label: " + str(first_point.label) 
    4 print "Linear Model feature vector:\n" + str(first_point.features) 
    5 print "Linear Model feature vector length: " + str(len (first_point.features)) 

C:\spark\python\pyspark\rdd.pyc in first(self) 
1313   ValueError: RDD is empty 
1314   """ 
-> 1315   rs = self.take(1) 
1316   if rs: 
1317    return rs[0] 

C:\spark\python\pyspark\rdd.pyc in take(self, num) 
1295 
1296    p = range(partsScanned, min(partsScanned + numPartsToTry, totalParts)) 
-> 1297    res = self.context.runJob(self, takeUpToNumLeft, p).................. 

ご協力いただければ幸いです。

はありがとう、 イノセント

答えて

-1

あなたrecordsは空です。 records.first()に電話して確認できます。

空のRDD上でfirstを呼び出すとエラーが発生しますが、collectでは発生しません。例えば、

records = sc.parallelize([]) 

records.map(lambda x: x).collect() 

[]

records.map(lambda x: x).first() 

ValueError: RDD is empty

関連する問題