でデータパーティションの作成:我々は使用し、75%の研修と25%のテストデータパーティションを作成する際に、<code>caret</code>パッケージでR
inTrain<- createDataPartition(y=spam$type,p=0.75, list=FALSE)
注:データセットはspam
という名前の変数を対象とされるがtype
命名されました私の質問は、y=spam$type
引数を含める目的は何ですか?
訓練とテストの両方に必要な割合に基づいてデータセット全体を分割するだけの目的はありませんか?その引数をコードに含める必要があるのはなぜですか?
100%ではありませんが、これは単にデータをどのような変数で区切ってコマンドを伝えるのかと思います。どのようにパーティション化するかを明確にすることを除いては、コンピュータが理解しやすくなること以外は重要ではないと確信しています –
「createDataPartition」という関数はどこで手に入りましたか? 'str(inTrain)'の出力は何ですか? – aichao
@ a.powell "どの変数を使ってデータを分割しているのかを教えてください"とはどういう意味ですか?パーティション化についての私の理解は、単純にデータ全体を分割することです。なぜ私はこの段階で "タイプ"が私の目標変数であるという事実を引き起こすべきですか?私は概念的にデータ分割のアイデアを誤解していますか? – Aiden