日付の範囲を持つ一意のIDにリストを縮める

さまざまな日付の範囲で繰り返される大きなIDリストがあります。私は、IDの一意なリストを作成する必要があります。これには、未開封リストからの最も早い開始日と最新の終了日を含む日付の範囲が1つだけあります。日付の範囲を持つ一意のIDにリストを縮める

id start_date end_date 
    1 9/25/2015 10/12/2015 
    1 9/16/2015 11/1/2015 
    1 8/25/2015 9/21/2015 
    2 9/2/2015 10/29/2015 
    3 9/18/2015 10/15/2015 
    3 9/19/2015 9/30/2015 
    4 8/27/2015 9/15/2015

そして、これは私が必要なものである：

これは私が持っているものの一例です。

id start_date end_date 
    1 8/25/2015 11/1/2015 
    2 9/2/2015 10/29/2015 
    3 9/18/2015 10/15/2015 
    4 8/27/2015 9/15/2015

私はこれをPythonで手に入れようとしていますが、大したことはありません。ありがとう！

出典

2016-07-25 Ben

使用groupby/aggregate：

In [12]: df.groupby('id').agg({'start_date':min, 'end_date':max}) 
Out[12]: 
    start_date end_date 
id      
1 2015-08-25 2015-11-01 
2 2015-09-02 2015-10-29 
3 2015-09-18 2015-10-15 
4 2015-08-27 2015-09-15

注minとmaxは、各idの最小値と最大日付 sを返しますようにstart_dateとend_dateは、日付として解析することが重要であること。値が単に日付の文字列表現である場合、minとmaxは文字列 minまたはmaxを文字列の辞書順に依存します。日付文字列がYYYY/MM/DD形式の場合、辞書順は解析日の順番に対応しますが、MM/DD/YYYY形式の日付文字列にはこのプロパティがありません。

もしstart_dateとend_dateは、日付に文字列を変換します、その後

for col in ['start_date', 'end_date']: 
    df[col] = pd.to_datetime(df[col])

、文字列値を持っています。

あなたがpd.read_table（またはpd.read_csv）を使用して、ファイルからのデータフレームをロードする場合は、その後、

df = pd.read_table(filename, ..., parse_dates=[1, 2])

は、日付など、ファイルの2列目と3列目の文字列を解析します。 [1, 2]は、Pythonが0ベースのインデックスを使用するため、2番目と3番目の列に対応します。

出典

2016-07-25 18:53:44 unutbu

日付の範囲を持つ一意のIDにリストを縮める

答えて

関連する問題