私はSparkからMLlibを使い始めました。私は単純なモデル(例えばロジスティック回帰)を訓練したい。私の期待は、ターゲットとして使用する列と、機能として扱う列をモデルに「伝える」必要があるということでした。Sparkで複数の列を1つのベクトル値の列に結合する方法は?
ただし、フィーチャ(値としてベクトルを含む列)が1つだけあるように見えます。
私の質問は次のとおりです。このようなベクトル値の列を作成する方法は?私が試してみました(しかし、それは動作しません)以下:私は、次のエラーメッセージが表示されますその結果
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=['_c0', '_c1', '_c2', '_c3', '_c4'], outputCol='feat_vec')
df = assembler.transform(df)
:
df = df.withColumn('feat_vec', [df['_c0'], df['_c1'], df['_c1'], df['_c3'], df['_c4']])
は、私もこれを試してみました
を追加しました:
pyspark.sql.utils.IllegalArgumentException: u'Data type StringType is not supported.'
私はあなたが間違っていると思います。 [こちら](https://stackoverflow.com/questions/32982425/encode-and-assemble-multiple-features-in-pyspark)をご覧ください。 –
私の答えをここで確認してください。VectorAssembler:https://stackoverflow.com/questions/43355341/spark-pipeline-error/43378263#43378263 – TDrabas
ここで問題が起きるとは分かりません@TDrabas – eliasah