res <- new_data_frame_PEP[duplicated(new_data_frame_PEP$sequence) |
duplicated(new_data_frame_PEP$sequence, fromLast=TRUE),]
ここでは、私たちは二度duplicated
を呼び出す:最初のスタートからfromLast
を使用して末尾からsequence
列まで、最後から最後まで先頭に戻ります。 duplicated
は、or'ed(すなわち、|
)の論理を返し、重複しているすべての行インデックスを取得します。次に、これらの行についてサブセットnew_data_frame_PEP
をサブセット化します。
我々は両方sequence
とmodification
列の値を重複しているすべての行を見つけるように、複数のカラムで同じことを達成するために、我々はduplicated
に渡すこれらの列を選択する必要があります。これはsubset
を使用して行うことができます。
seq.mod <- subset(new_data_frame_PEP, select=c("sequence","modification"))
data_duplicate <- new_data_frame_PEP[duplicated(seq.mod) | duplicated(seq.mod, fromLast=TRUE),]
説明するために、我々はあなたが我々が唯一ID
、sequence
、modification
、そしてn_project
列を含める以外掲示するものであるデータセットを作成します。私たちは実際にsequence
とmodification
の両方に重複を持つように加えて、我々は最初の行を複製:
new_data_frame_PEP <- structure(list(ID = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L,
1L, 1L), .Label = "DAT ", class = "factor"), sequence = structure(c(4L,
4L, 4L, 1L, 5L, 8L, 7L, 2L, 3L, 6L), .Label = c(" actgat ",
" atagattg ", " atatagag ", " atggggg ", " atgtagtt ", " gggatgac ",
" tatatccc ", " ttttaaat "), class = "factor"), modification = structure(c(4L,
4L, 1L, 4L, 4L, 2L, 4L, 3L, 4L, 4L), .Label = c(" 7.UN ", " 8.UN ",
" 9.AT ", " NULL "), class = "factor"), n_project = structure(c(1L,
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Label = " project ", class = "factor")), .Names = c("ID",
"sequence", "modification", "n_project"), class = "data.frame", row.names = c(NA,
-10L))
## ID sequence modification n_project
##1 DAT atggggg NULL project
##2 DAT atggggg NULL project
##3 DAT atggggg 7.UN project
##4 DAT actgat NULL project
##5 DAT atgtagtt NULL project
##6 DAT ttttaaat 8.UN project
##7 DAT tatatccc NULL project
##8 DAT atagattg 9.AT project
##9 DAT atatagag NULL project
##10 DAT gggatgac NULL project
のみsequence
を使用して、我々が得る:
両方sequence
とmodification
使用 seq.only <- subset(new_data_frame_PEP, select=c("sequence"))
data_duplicate <- new_data_frame_PEP[duplicated(seq.only) | duplicated(seq.only, fromLast=TRUE),]
## ID sequence modification n_project
##1 DAT atggggg NULL project
##2 DAT atggggg NULL project
##3 DAT atggggg 7.UN project
:
をseq.mod <- subset(new_data_frame_PEP, select=c("sequence","modification"))
data_duplicate <- new_data_frame_PEP[duplicated(seq.mod) | duplicated(seq.mod, fromLast=TRUE),]
## ID sequence modification n_project
##1 DAT atggggg NULL project
##2 DAT atggggg NULL project
はい!、それは動作します!!!。ありがとう – Enrique