0
私はこのDFを持っている: - 私は、トレーニングセット(電車)、残りに入るのSESSION_ID、50%を要求することによって、このデータをグループ化しようとしていますは
df = structure(list(session_id = c(1105L, 1105L, 1105L, 1107L, 1107L,
1107L, 1108L, 1108L, 1108L, 1109L, 1109L, 1109L, 1110L, 1110L,
1110L, 1111L, 1111L, 1111L, 1111L, 1112L, 1112L, 1112L, 1112L,
1114L, 1114L, 1114L, 1114L), datetime = structure(c(1457483622,
1457483623, 1457483625, 1457484264, 1457484266, 1457484269, 1457484842,
1457484844, 1457484846, 1457485297, 1457485299, 1457485300, 1457485369,
1457485369, 1457485371, 1457486315, 1457486316, 1457486316, 1457486318,
1457486477, 1457486480, 1457486480, 1457486481, 1457486997, 1457486997,
1457486998, 1457487001), class = c("POSIXct", "POSIXt"), tzone = "UTC"),
request = c(8, 3, 3, 14, 14, 7, 9, 10, 10, 17, 6, 6, 10,
8, 5, 9, 11, 14, 16, 21, 11, 1, 19, 7, 4, 13, 20)), .Names = c("session_id",
"datetime", "request"), row.names = c(NA, -27L), class = c("grouped_df",
"tbl_df", "tbl", "data.frame"))
50%がテストセットに入ります(テスト)。出力希望
: - 私たちは2(次の正の整数)として約1.5にそれを私たちに与え半分(50%)に分割して、あなたが1105 = session_idの見たよう
は3つのエントリが含まれています...そうTrain colには8,3があり、Test colには3が含まれています。...........と休憩にも同じことをします。セッションID
しかしsample_frac()関数seperatingは、私が望まれていないよう...ランダムにエントリを要求した...最初の50%のエントリ電車に入り、あなたはIDのCOL 5,6が起こって見るように残りは....テストに入ります列車に入ると4がテストに入ります....(((((しかし、私は4,5が列車に入り、6がテストに入ります)))))) – SumitArya
あなたの答えは役に立ちます+1 – SumitArya
@SumitArya私を見てくださいupdate。あなたが望むものが最初の50%の行であれば、 'sample_frac'の代わりに' slice'を使うことができます。 – www