Pysparkはラベル付けされたポイントRDDのラベルの異なる値をカウントします

私はlabeled pointのスパークを持っています。私はラベルのすべての明確な値を数えたいと思う。私は何かPysparkはラベル付けされたポイントRDDのラベルの異なる値をカウントします

from pyspark.mllib.regression import LabeledPoint 

train_data = sc.parallelize([ LabeledPoint(1.0, [1.0, 0.0, 3.0]),LabeledPoint(2.0, [1.0, 0.0, 3.0]),LabeledPoint(1.0, [1.0, 0.0, 3.0]) ]) 

train_data.reduceByKey(lambda x : x.label).collect()

を試してみてくださいしかし、私はスパーク2.1とPython 2.7を使用し

TypeError: 'LabeledPoint' object is not iterable

を取得します。助けてくれてありがとう。

出典

2017-10-26 Michail N

は、あなたのデータ – desertnaut

のサンプルを提供してください。 –

あなたは自分の LabeledPointキーと値のRDDに変換する必要があり、その後、キーによってカウント

：私はいくつかのデータとの私の質問を更新してい@desertnaut

spark.version 
# u'2.1.1' 

from pyspark.mllib.regression import LabeledPoint 

train_data = sc.parallelize([ LabeledPoint(1.0, [1.0, 0.0, 3.0]),LabeledPoint(2.0, [1.0, 0.0, 3.0]),LabeledPoint(1.0, [1.0, 0.0, 3.0]) ]) 

dd = train_data.map(lambda x: (x.label, x.features)).countByKey() 
dd 
# {1.0: 2, 2.0: 1}

出典

2017-10-26 07:55:04 desertnaut

これはOPのpbを解決します。しかし、説明があるといいですね:) – eliasah

ここに行くhttps://stackoverflow.com/questions/24804619/how-does-spark-aggregate-function-aggregatebykey-workとhttps://databricks.gitbooks.io /databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.htmlあなたは余分な読書としてそれらのリンクを追加することができます:) – eliasah

@eliasahあまりにも多くのタスク、あまりにも時間... :( – desertnaut

Pysparkはラベル付けされたポイントRDDのラベルの異なる値をカウントします

答えて

関連する問題