0
はスパークVectorAssembler
http://spark.apache.org/docs/latest/ml-features.html#vectorassemblerは、次のように出力スパークパイプラインベクトルアセンブラドロップ他の列
id | hour | mobile | userFeatures | clicked | features
----|------|--------|------------------|---------|-----------------------------
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0 | [18.0, 1.0, 0.0, 10.0, 0.5]
を生成します。他の列が削除されている場合は、パフォーマンスが向上します。ラベル/ IDとフィーチャだけが保持されるか、これは不必要なオーバーヘッドであり、ラベル/ IDとフィーチャをエバリュエータに供給するだけで十分ですか?
VectorAssembler
がパイプラインで使用されるとどうなりますか?元の列が手動で削除されない場合は、最後の機能のみが使用されるか、同列性(重複列)が導入されますか?
なぜdownvoteを説明してください。 –