私は2600の要素レベルのデータフレームを持っています。データセットのバランスがよくない。データフレームからデータを切り取ってバランスを取るためにデータを切り取ります
私は1つの要因に5つの未満の出現を持っているすべてのエントリを削除したいと思います。また、5までの5回の出現をトリミングするようにしたいと思います。最終的には、全体的なエントリが少ないデータフレームを作成したいのですが、要素の人とのバランスが取れています。
次のようにデータセットが構築されています:
file_list <- list.files("path/to/image/folder", full.names=TRUE)
# the folder contains 2600 images, which include information about the
# person factor in their file name
file_names <- sapply(strsplit(file_list , split = '_'), "[", 1)
person_list <- substr(file_names, 1 ,3)
person_class <- as.factor(person_list)
imageWidth = 320; # uniform pixel width of all images
imageHeight = 280; # uniform pixel height of all images
variableCount = imageHeight * imageWidth + 2
images <- as.data.frame(matrix(seq(count),nrow=count,ncol=variableCount))
images[1] <- person_class
images[2] <- eyepos_class
for(i in 1:count) {
img <- readJPEG(file_list[i])
image <- c(img)
images[i, 3:variableCount] <- image
}
だから基本的に私はsummary(images[1])
を使用しているときのように(因子レベルごとのサンプルの量を取得する必要があり、その後、データをトリミングするための操作を行いますセット 私は本当にここを開始する方法がわからないと、任意のヘルプがdplyr
を使用して
を使用してオプションのために私はあなたのデータは小さなではないことを知っているが、あなたupvotesと回答を得るでしょうどの再現性の良い質問を書き込むために、私たちができることを、再現含めてくださいコピー&ペーストしてデータ/問題を再現し、問題を再現してください。ビルトインのデータセットを使用するか、独自のデータセットを作成し、使用したコードを組み込むことができます。 –
さて、私は再現性を高めるために最善を尽くしましたが、まだデータセットが必要になりました。一般公開されていますが、ダウンロード速度は遅いです。 – 4ndro1d