私はlabeled pointのスパークを持っています。私はラベルのすべての明確な値を数えたいと思う。私は何かPysparkはラベル付けされたポイントRDDのラベルの異なる値をカウントします
from pyspark.mllib.regression import LabeledPoint
train_data = sc.parallelize([ LabeledPoint(1.0, [1.0, 0.0, 3.0]),LabeledPoint(2.0, [1.0, 0.0, 3.0]),LabeledPoint(1.0, [1.0, 0.0, 3.0]) ])
train_data.reduceByKey(lambda x : x.label).collect()
を試してみてくださいしかし、私はスパーク2.1とPython 2.7を使用し
TypeError: 'LabeledPoint' object is not iterable
を取得します。助けてくれてありがとう。
は、あなたのデータ – desertnaut
のサンプルを提供してください。 –