2016-07-23 8 views
1

私は、20行と60列の系列、つまり60個のパラメータを持つ20個の例があります。StratifiedKFoldの出力処理

kfold = StratifiedKFold(Y = encoded_Y、n_folds = 10、シャッフル=真、random_state =シード) The output consists of two columns

私は2番目の列は何を意味知っていただきたいと思いますし、どのような基準で、2を選択しませんインデックス。なぜ3つのインデックスを取らないのですか?

さらに、クロス検証関数は、このシリーズを「cv」引数の入力としてどのように使用するのか知りたいと思います。 "cv"は一般に整数です。これはインデックスのペア反復子あるsklearn.cross_validationクロスバリデータの全てと同様に

結果= cross_val_score(推定、X、encoded_Y、CV = kfold)

答えて

0

。各ペアでは、最初の項目はトレインインデックスのリストであり、2番目の項目はテストインデックスのリストです。

the example you bringの最初の項目には、1,17を除くすべてが列車インデックスであり、1,17がテストインデックスです。

+0

正解!どのような基準で2つのテスト指標しか選択されなかった。なぜ、1つの指標だけでなく、3つの指標がプログラムによって選択されたのですか。ここでテスト指標の数を正確に定義するにはどうすればよいですか? –

+0

20行あります(列の数は関係ありません)。 kfoldにk = 10と尋ねたので、それは10分の1の割合で(この場合は2)列車から取り除かれ、テストに置かれます。あなたが5倍を求めるなら、あなたは4つのテスト指数を得るでしょう。 –