スパークパイプラインベクトルアセンブラドロップ他の列

はスパークVectorAssemblerhttp://spark.apache.org/docs/latest/ml-features.html#vectorassemblerは、次のように出力スパークパイプラインベクトルアセンブラドロップ他の列

id | hour | mobile | userFeatures  | clicked | features 
----|------|--------|------------------|---------|----------------------------- 
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0  | [18.0, 1.0, 0.0, 10.0, 0.5]

を生成します。他の列が削除されている場合は、パフォーマンスが向上します。ラベル/ IDとフィーチャだけが保持されるか、これは不必要なオーバーヘッドであり、ラベル/ IDとフィーチャをエバリュエータに供給するだけで十分ですか？

VectorAssemblerがパイプラインで使用されるとどうなりますか？元の列が手動で削除されない場合は、最後の機能のみが使用されるか、同列性（重複列）が導入されますか？

出典

2016-11-10 Georg Heiler

なぜdownvoteを説明してください。 –

ドキュメントをよくお読みください。すべての分類子は、フィーチャーカラム（featuresCol）によってパラメータ化されています。他の列や列の順序は考慮されません。

出典

2016-11-10 23:46:44

スパークパイプラインベクトルアセンブラドロップ他の列

答えて

関連する問題