2016-11-10 7 views
0

はスパークVectorAssemblerhttp://spark.apache.org/docs/latest/ml-features.html#vectorassemblerは、次のように出力スパークパイプラインベクトルアセンブラドロップ他の列

id | hour | mobile | userFeatures  | clicked | features 
----|------|--------|------------------|---------|----------------------------- 
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0  | [18.0, 1.0, 0.0, 10.0, 0.5] 

を生成します。他の列が削除されている場合は、パフォーマンスが向上します。ラベル/ IDとフィーチャだけが保持されるか、これは不必要なオーバーヘッドであり、ラベル/ IDとフィーチャをエバリュエータに供給するだけで十分ですか?

VectorAssemblerがパイプラインで使用されるとどうなりますか?元の列が手動で削除されない場合は、最後の機能のみが使用されるか、同列性(重複列)が導入されますか?

+0

なぜdownvoteを説明してください。 –

答えて

1

ドキュメントをよくお読みください。すべての分類子は、フィーチャーカラム(featuresCol)によってパラメータ化されています。他の列や列の順序は考慮されません。