2017-07-20 14 views
0

h2o flowには、データフレームの分割にレスポンスクラスの割合が制御されていることを確認する方法があります。例えば、私はサンプルの0_class_ratio%がクラスに0と1_class_ratio%あるデータフレームXのバイナリ分類器を訓練する予定h2oフローデータ分割の応答カテゴリの層別サンプリング

を言う私は、フレームの分割にXを分割したいクラス1でありますX_trainおよびX_testを比0.75および0.25でそれぞれ計算する。 X_trainとX_testの両方が含まれていることを確認するにはどうすればいいですか?0_class_ratio%カテゴリ0のサンプルとカテゴリ1のサンプルの1_class_ratio

私のようなものだろうPythonのscikit学習パッケージで:

from sklearn.model_selection import StratifiedShuffleSplit 

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=rng_seed_) 
# go thru all (split and shuffled) indices of my_data dataframe stratified by response_class values 
for train_index, test_index in split.split(my_data, my_data["response_class"]): 
    strat_train_set = my_data.loc[train_index] 
    strat_test_set = my_data.loc[test_index] 

を私はh2oハイパーパラメータsample_ratesample_rate_per_classの承知していますが、私はこのような状況でそれらを使用する方法を完全にはわからないんだけど。

答えて

0

fold_assignmentを「階層化」に設定します。

enter image description here

+0

"fold_assignment"のこのリンクは少し上手です(これは決して古くはありません):http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/fold_assignment.html –

関連する問題