私は、犯罪の日付と時刻、カテゴリを含む犯罪に関する統計を含むデータフレームを持っています。datetimeを使用して時間間隔内の最高頻度イベントを特定する
0 5/13/2015 8:55 VEHICLE THEFT
1 5/13/2015 8:41 OTHER OFFENSES
2 5/13/2015 8:36 OTHER OFFENSES
3 5/13/2015 8:30 NON-CRIMINAL
4 5/13/2015 8:17 OTHER OFFENSES
5 5/13/2015 8:16 OTHER OFFENSES
6 5/13/2015 8:10 LARCENY/THEFT
7 5/13/2015 8:00 BURGLARY
8 5/13/2015 8:00 MISSING PERSON
9 5/13/2015 8:00 OTHER OFFENSES
10 5/13/2015 8:00 ASSAULT
---
上記のサンプルでは、「その他の犯罪」と表示されます。
これは、400,000行以上の大量データベースです。
私は任意の時間範囲(fromとtoを使用して)を入力し、最も頻度の高い犯罪カテゴリを特定できるようにする関数を記述する必要があります。これは私が持っているものであり、それが動作していません。
import pandas as pd
import csv
import datetime
timeData = open("timeData.csv")
df = pd.read_csv('timeData.csv')
from datetime import timedelta, date
df['Dates'] = pd.to_datetime(df['Dates']) #this converts the values in the Dates column to datetime format
def daterange(start_date, end_date):
for n in range(int ((end_date - start_date).days)):
yield start_date + timedelta(n)
start_date = date(2015, 5, 1)
end_date = date(2015, 6, 2)
for daterange(start_date, end_date):
df['Category'].value_counts()
私は日付の列(カラムA)を反復処理し、私の日付範囲内に収まるだけこれらの日付を選択します。私のdaterange内の日付については、次に、各犯罪のインスタンスの数を数えたいと考えています(B列)。このようにして、最も頻繁に起こる犯罪を印刷したいと思います。
提案?
それはあなたのように私に見えます[date_range()](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.date_range.html)の機能を改革しようとしています。 – MaxU
....それは私の目的のためにどのように機能するのだろうか? –
投稿された入力データセットに必要なデータセットを投稿できますか? – MaxU