1
私はSpark(1.5.2)DataFramesを使用しており、階層化されたデータセットを取得しようとしています。私のデータは、バイナリ分類のために準備されており、2つのだけの値がコンソールにclass
、1と0sampleByは非常に歪んだ結果を返す
val Array(trainingData, testData) = df.randomSplit(Array(0.7, 0.3))
val fractions: Map[Int, Double] = Map(1 -> 0.5, 0 -> 0.5)
val trainingData3 = trainingData.stat.sampleBy("class", fractions, new Random().nextLong)
println("Training True Class = " + trainingData3.where("class=1").count())
println("Training False Class = " + trainingData3.where("class=0").count())
私は0に、クラス1の大幅間違った割合を示す出力を得るためにあります
Training True Class = 799845
Training False Class = 32797260
これは探している可能性があります。http://stackoverflow.com/a/32241887/3415409 – eliasah