0
h2o flow
には、データフレームの分割にレスポンスクラスの割合が制御されていることを確認する方法があります。例えば、私はサンプルの0_class_ratio%がクラスに0と1_class_ratio%あるデータフレームXのバイナリ分類器を訓練する予定h2oフローデータ分割の応答カテゴリの層別サンプリング
を言う私は、フレームの分割にXを分割したいクラス1でありますX_trainおよびX_testを比0.75および0.25でそれぞれ計算する。 X_trainとX_testの両方が含まれていることを確認するにはどうすればいいですか?0_class_ratio%カテゴリ0のサンプルとカテゴリ1のサンプルの1_class_ratio%
私のようなものだろうPythonのscikit学習パッケージで:
from sklearn.model_selection import StratifiedShuffleSplit
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=rng_seed_)
# go thru all (split and shuffled) indices of my_data dataframe stratified by response_class values
for train_index, test_index in split.split(my_data, my_data["response_class"]):
strat_train_set = my_data.loc[train_index]
strat_test_set = my_data.loc[test_index]
を私はh2o
ハイパーパラメータsample_rateとsample_rate_per_classの承知していますが、私はこのような状況でそれらを使用する方法を完全にはわからないんだけど。
"fold_assignment"のこのリンクは少し上手です(これは決して古くはありません):http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/fold_assignment.html –