データフレーム用のpyspark.mlライブラリ(RDDの場合はではなくmllib)を使用してランダムフォレストクラシファイアを構築しようとしています。 ドキュメントに記載されているパイプラインを使用する必要がありますか? は、私はちょうど私のデータが180列と類似している私は、次のエラーデータフレームにpyspark.mlを使用するランダムフォレスト
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/__init__.py", line 104, in wrapper
return func(self, **kwargs)
File "/usr/lib/spark/python/pyspark/ml/classification.py", line 910, in __init
__
self.setParams(**kwargs)
File "/usr/lib/spark/python/pyspark/__init__.py", line 104, in wrapper
return func(self, **kwargs)
File "/usr/lib/spark/python/pyspark/ml/classification.py", line 928, in setPar
ams
return self._set(**kwargs)
File "/usr/lib/spark/python/pyspark/ml/param/__init__.py", line 421, in _set
raise TypeError('Invalid param value given for param "%s". %s' % (p.name, e)
)
TypeError: Invalid param value given for param "labelCol". Could not convert <cl
ass 'pyspark.sql.dataframe.DataFrame'> to string type
に私のラベル
+---+
| _2|
+---+
|0.0|
|1.0|
|0.0|
|0.0|
|0.0|
|0.0|
|1.0|
|1.0|
|1.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|0.0|
|1.0|
|1.0|
+---+
のサンプルを実行
rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata)
、単純なモデルを構築したいです。
パイプラインを使用する必要はありません。詳細については、データのサンプルを提供してください – desertnaut
私は投稿を編集しました。ありがとう。 – Nivi