0
データフレームからLabeledPoint
のRDDを作成しようとしていますので、後でMlLibに使用できます。pyspark MlLib:行の列の値を除外します
my_target
の列がsparkDFの最初の列の場合、以下のコードは正常に動作します。ただし、my_target
列が最初の列でない場合は、my_target
を除外して正しいLabeledPointを作成するために、以下のコードを変更するにはどうすればよいですか?ある
import pyspark.mllib.classification as clf
labeledData = sparkDF.rdd.map(lambda row: clf.LabeledPoint(row['my_target'],row[1:]))
logRegr = clf.LogisticRegressionWithSGD.train(labeledData)
、row[1:]
は今最初の列の値を除外する。行の列Nの値を除外したい場合は、どうすればよいですか?ありがとう!