2
特定のデータセットに対してプリンシパルコンポーネント分析を実行し、主成分をLogisticRegression
クラシファイアにフィードします。PCAを適用して分散の割合を維持する
具体的には、computePrincipalComponentsAndExplainedVariance
を使用して、PCA
を適用し、合計分散の90%を維持したいと考えています。
は、ここでデータセットを読み込むためのコードです:
// Load the data
val text = sparkSession.sparkContext.textFile("dataset.data")
val data = text.map(line => line.split(',').map(_.toDouble))
// Separate to label and features
val dataLP = data.map(t => (t(57), Vectors.dense(t.take(57))))
私は全分散の90%が維持されるようにPCAを実行するかどうかはかなりわかりません。