2017-06-07 18 views
1

ファイル内にjson形式のつぶやきのコレクションがあります。各ツイートの「のcreated_at」キーは次のようになります。時間に基づいてツイートを分割する

Sun May 28 23:59:59 +0000 2017 
Sun May 28 23:59:58 +0000 2017 
Sun May 28 23:59:58 +0000 2017 
Sun May 28 23:59:58 +0000 2017 
Sun May 28 23:59:58 +0000 2017 
Sun May 28 23:59:57 +0000 2017 
Sun May 28 23:59:57 +0000 2017 
Sun May 28 23:59:57 +0000 2017 
Sun May 28 23:59:57 +0000 2017 
Sun May 28 23:59:56 +0000 2017 
Sun May 28 23:59:56 +0000 2017 

私は(各10秒間隔のつぶやきを収集し、ツイートのいくつかの計算をしたいと思っ例えば日5月28日夜11時59分59秒0000から考えます2017からSun May 28 23:59:49 +0000 2017)、Sun May 28 28 23:59:49 +0000 2017からSun May 28 23:59:39 +0000 2017などの次のステップ)。これどうやってするの?

答えて

1

あなたはdf = pd.read_json(filename)でJSONからのデータフレームを作成し、グループの時間間隔grouped = df.groupby(pd.TimeGrouper("10s"))TimeGrouperを使用するようにpandasモジュールを使用することができます。その後、グループを繰り返すことができます。for name, group in grouped:

df = pd.read_json(filename) 
grouped = df.groupby(pd.TimeGrouper("10s")) 

for name, group in grouped: 
    ... 
関連する問題