2017-03-12 8 views
0

LabeledPointを使用してバイナリ分類を実行しています。次に、1.0のラベル付けされた点の数をsum()して分類を検証します。Pysparkラベルポイントアグリゲーション

lp_RDD = RDD.map(lambda x: LabeledPoint(1 if (flag in x[0]) else 0,x[1])) 

を次のように私はRDDのラベルが付いている私は多分、私が使用して1で標識されているどのように多くのカウントを取得できると思っていた:

cnt = lp_RDD.map(lambda x: x[0]).sum() 

しかし、私は次のエラーを取得します:

'LabeledPoint' object does not support indexing 

私は、RDD全体を印刷してラベル付きRDDを正しいと確認してから、文字列 "LabeledPoint(1.0")を検索します。私は単純に合計をしようとすると、ショートカットがあった疑問に思っていたのですか?

答えて

1

LabeledPointは、カウントまたはsum.Pleaseを試す見つけるために使用することができ、ラベル値の部材を有する、

cnt = lp_RDD.map(lambda x: x.label).sum()