2017-03-08 11 views
0

私はすべてを試しましたが、私のデータに適したものは見つかりませんでした。私のデータの5分間隔R

私はデータ80,000行を持っていると私はインクルードはすべての5行を平均して、明らかに順番にコードの5倍以下の行を持つことになりますいくつかのコードを書きたいです。

   timestamp curr_proc_units entitled_cycles capped_cycles 
1481000580 2016-12-05 23:03:00    1  512269820  17400328 
1481000640 2016-12-05 23:04:00    1  511754172  15196426 
1481000700 2016-12-05 23:05:00    1  512715413  17452370 
1481000760 2016-12-05 23:06:00    1  512334707  124006106 
1481000820 2016-12-05 23:07:00    1  510737517  34001018 
1481000880 2016-12-05 23:08:00    1  512152279  15343897 
     uncapped_cycles 
1481000580  47532.200 
1481000640  9154.117 
1481000700  45975.650 
1481000760  4018213.067 
1481000820  145820.350 
1481000880  41980.917 
+0

ですから、ここに示しているデータでは、タイムスタンプは非常に素晴らしく、一貫しています。これはいつものケースですか? 5行目はいつも分に入っていますか?ここで時間差で区別することは重要ですか?また、ここでデータ量を減らすためにファイル管理を超えて理由がありますか? – SeldomSeenSlim

+0

はい、すべて1分間隔です。 –

答えて

1

我々はdplyrでdata.table

library(data.table) 
setDT(df1)[, lapply(.SD, mean), .(grp = cut(timestamp, breaks = "5 min"))] 
+1

おかげで私はそれを試してみます –

+0

setDT(rra)[、lapply(.SD、mean)、。grp = cut(タイムスタンプ、by = "5分")エラーが発生しましたError:unexpected ' SETDT(RRA) '[、lapply(平均.SD、)、。(= "5分" による= GRPカット(タイムスタンプ)]」 –

+0

@KathrynWithersタイプミスがありましたが、私は'忘れてしまった)を。今 – akrun

1

を使用することができます。

library(dplyr) 
group_by(df, group = cut(timestamp, breaks = "5 min")) %>% 
    summarize_all(funs(mean(.))) 
+0

それを感謝しています。 'group_by'の' group' – akrun

+0

私はこのエラーを受け取ります:エラーeval(expr、envir、enclos ): 引数 "休憩" をデフォルトなしで、 コールが欠落しています。%>%... as.data.frame - > mutate_ - > mutate_.tbl_df - > mutate_impl - >は.call –

+0

休憩する必要がありますすることにより、私の編集を参照してください – scoa

関連する問題