2017-09-29 14 views

'start_time'(datetime)、 'end_time'(datetime)、 'mode'などの列を持つDataFrameがあります。 テーブルの異なる行の範囲に重複はありません。 「CURRENT_TIME」が元の「START_TIME間のリサンプルである 「CURRENT_TIME」、「モード」、他の列データフレームの日付範囲での再サンプリング

I新しいデータフレームを作成したいが、それは、各ようなので、元のデータフレームの列をリサンプリング'と' end_time 'を指定し、他のすべての列は元のテーブルの値の単なるコピーです。

例: オリジナルDATAFRAME:

  current_time  mode 
2017-06-01 06:38:00.000  x 
2017-06-01 06:38:10.000  x 
2017-06-01 06:38:20.000  x 
2017-06-01 06:38:30.000  x 
2017-06-01 06:38:40.000  x 
2017-06-01 06:38:50.000  x 
2017-06-01 17:22:00.000  y 
2017-06-01 17:22:10.000  y 
2017-06-01 17:22:20.000  y 


'10S' の与えられた 'FREQ' の
   start_time     end_time mode 
2017-06-01 06:38:00.000 2017-06-01 06:39:00.000  x 
2017-06-01 17:22:00.000 2017-06-01 17:22:30.000  y 






#convert columns to datetimes if necessary 
df['start_time']= pd.to_datetime(df['start_time']) 
df['end_time']= pd.to_datetime(df['end_time']) 
#subtract 10s for no last row from values from end_time column 
df['end_time']= df['end_time'] - pd.Timedelta(10, unit='s') 

#loop by list comprehension for list of date ranges 
#concat to one big DataFrame 
df1 = (pd.concat([pd.Series(r.Index, 
          pd.date_range(r.start_time, r.end_time, freq='10S')) 
          for r in df.itertuples()]) 
df1.columns = ['current_time','idx'] 
print (df1) 
     current_time idx 
0 2017-06-01 06:38:00 0 
1 2017-06-01 06:38:10 0 
2 2017-06-01 06:38:20 0 
3 2017-06-01 06:38:30 0 
4 2017-06-01 06:38:40 0 
5 2017-06-01 06:38:50 0 
6 2017-06-01 17:22:00 1 
7 2017-06-01 17:22:10 1 
8 2017-06-01 17:22:20 1 

EDIT OPのコメントによって:


pd.date_range(r.start_time, r.end_time, freq='10S', closed='left') 


#join all another columns by index 
df2 = df1.set_index('idx').join(df.drop(['start_time','end_time'], 1)).reset_index(drop=True) 
print (df2) 
     current_time mode 
0 2017-06-01 06:38:00 x 
1 2017-06-01 06:38:10 x 
2 2017-06-01 06:38:20 x 
3 2017-06-01 06:38:30 x 
4 2017-06-01 06:38:40 x 
5 2017-06-01 06:38:50 x 
6 2017-06-01 17:22:00 y 
7 2017-06-01 17:22:10 y 
8 2017-06-01 17:22:20 y 


#create column from index for last join (index values has to be unique) 
df = df.reset_index() 
#reshape dates to datetimeindex 
df1 = (df.melt(df.columns.difference(['start_time','end_time']), 
       ['start_time', 'end_time'], 
     .drop('variable', 1) 
print (df1) 
        index mode 
2017-06-01 06:38:00  0 x 
2017-06-01 17:22:00  1 y 
2017-06-01 06:38:50  0 x 
2017-06-01 17:22:20  1 y 

#group by index column and resample, NaNs are replaced by forward filling 
df2 = df1.groupby('index').resample('10S').ffill().reset_index(0, drop=True).drop('index', 1) 
print (df2) 
2017-06-01 06:38:00 x 
2017-06-01 06:38:10 x 
2017-06-01 06:38:20 x 
2017-06-01 06:38:30 x 
2017-06-01 06:38:40 x 
2017-06-01 06:38:50 x 
2017-06-01 17:22:00 y 
2017-06-01 17:22:10 y 
2017-06-01 17:22:20 y 

ありがとう! 'pd.date_range(r.start_time、r.end_time、freq = '10S'、closed = 'left')' –


スーパー、それは良い改善です。 – jezrael