r - 時間としきい値に基づいた時系列データのサブセットの設定

時間としきい値に基づいて時系列データのフレームをどのようにサブセット化しますか？r - 時間としきい値に基づいた時系列データのサブセットの設定

私は、このデータを持っている：

次のようになります

year <- seq(2000, 2009, 1) 
v1 <- sample(1:10, 10, replace=T) 
df <- data.frame(year, v1)

：

v1の合計スコアはの値を超えたため

私はシーケンシャル年のグループによってデータをサブセットしたいです10.

この例のデータでは、最初のサブセットは2000年の観測値である& 2001を保持する必要があります。2番目のサブセットであるshou 2002年、2003年および2004年の観測を保持する。

実際のデータには、120年間にわたる約800万件の観測データがある。

出典

2016-10-05 wake_wake

ご入力のための 'sample' –

あなたは、Reduce機能を使用して、カスタマイズcumsumを実装合計が10を超えたときに合計をリセットすると同時に、グループ変数としてカウントを増やすことができます。

library(data.table) 
transpose(Reduce(function(x, y) if(x[1] > 10) c(y, x[2]+1) else c(x[1] + y, x[2]), 
       init = c(0, 1), df$v1, accumulate = T))[[2]][-1] 

# here the init parameter will take two parameters, the first one keep track of the cumsum, 
# and the second one serves as a group variable, when the sum exceeds 10, reset the sum to 
# zero and increase the group variable by one 

# [1] 1 1 2 2 2 3 3 3 3 4

それが終わっ千万を実行するために約20秒かかります観測ベクトル：

v = sample(1:10, 10000000, replace = T) 
system.time(transpose(Reduce(function(x, y) if(x[1] > 10) c(y, x[2]+1) else c(x[1] + y, x[2]), init = c(0, 1), v, accumulate = T))[[2]]) 

# user system elapsed 
# 19.509 0.552 20.081

出典

2016-10-05 19:59:50 Psidom

感謝を用いた例を作成するときに' set.seed'を使用してください。これは素晴らしい作品で、私が探している答えのようなものです。このコードを使用すると、出力には 'df'より1つ多くの観測値があります。これはどこから来たと思いますか？ –

ああ、いいキャッチ。 'Reduce'関数に渡される初期パラメータから来ます。あなたは 'transpose（関数（x、y）if（x [1]> 10）c（y、x [2] +1）else c（x [1] + y、x [2] ）、init = c（0,1）、df $ v1、accumulate = T））[[2]] [ - 1] 'である。 – Psidom

r - 時間としきい値に基づいた時系列データのサブセットの設定

答えて

関連する問題