そこに私のコードは、ハイブからの負荷データに、あり、そしてサンプルバランスを実行します。バイナリ分類にどのようにバランスサンプリングを選択できますか?
// Load SubSet Data
val dataList = DataLoader.loadSubTrainTestData(hiveContext.sql(sampleDataHql))
// Split Data to Train and Test
val data = dataList.randomSplit(Array(0.7, 0.3), seed = 11L)
// Random balance train data
val sampleCount = data(0).map(rec => (rec.label, 1)).reduceByKey(_ + _)
val positiveSample = data(0).filter(_.label == 1).cache()
val positiveSize = positiveSample.count()
val negativeSample = data(0).filter(_.label == 0).cache()
val negativeSize = negativeSample.count()
// Build train data
val trainData = positiveSample ++
negativeSample.sample(withReplacement = false, 1.0 * positiveSize.toFloat/negativeSize, System.nanoTime())
// Data size
val trainDataSize = positiveSize + negativeSize
val testDataSize = trainDataSize * 3.0/7.0
と私は、私はこのコードをテストしていません[OK]をモデルの信頼性を評価
私はサンプルバランスによって何を意味するのか分かりません。私はそのようなことを聞いたことがない。あなたは何を達成しようとしていますか?あなたのデータは何ですか? – eliasah
不均衡なトレーニングデータは、分類モデル –
に影響します。これは、手元の仕事と訓練しようとしているモデルによって異なります。あなたが言っていることは、必ずしも真実ではありません。 – eliasah