なぜタイムスタンプコンストラクタは日付文字列を解析する最も速い方法ですか？

私はタイムスタンプに、文字列の変換をスピードアップに取り組んでいる、と私はタイムスタンプのコンストラクタを使用すると、これを行うための絶食の方法であるように思われたことに気づいた：なぜタイムスタンプコンストラクタは日付文字列を解析する最も速い方法ですか？

import pandas as pd 
from time import perf_counter as pc 

test_time = '2016-12-01 19:44:47.891124' 

t0 = pc() 
for _ in range(100000): 
    pd.Timestamp.strptime(test_time, '%Y-%m-%d %H:%M:%S.%f') 
pc() - t0 
# 1.6517095469753258 

t0 = pc() 
for _ in range(100000): 
    pd.to_datetime(test_time) 
pc() - t0 
# 5.428138378018048 

t0 = pc() 
for _ in range(100000): 
    pd.Timestamp(test_time) 
pc() - t0 
# 0.20555895700817928

私はコンストラクタは実際にはもっとあることを驚いていますパフォーマンスはstrptimeメソッドよりも優れています。後者では、文字列を解析する方法を明示しているためです。これらの他のアプローチよりもはるかに優れているタイムスタンプコンストラクタは何ですか？

出典

2016-12-01 James Kelleher

このコードは読みにくいです。おそらく、このようなものをPythonでフォーマットするべきではありません。 – byxor

あなたは[それを見て]（https://github.com/pandas-dev/pandas/blob/master/pandas/tslib.pyx#L249）見つけましたか？パンダはオープンソースです。 – jonrsharpe

@BrandonIbbotsコードは時間のテストには十分でしたが、読みやすくするためにコードを更新しました。 –

使用しているプロセスが非効率的です。個々に個別に行うのではなく、一度にすべてpd.to_datetimeで一括して変換する必要があります。

は次のセットアップを考えてみましょう：

test_dts = ['2016-12-01 19:44:47.891124']*10**5

何が本質的時に各日付の1解析しているタイミングだ：

%timeit [pd.to_datetime(dt) for dt in test_dts] 
1 loop, best of 3: 5.33 s per loop

は、あなただけのバッチが1つのステップでそれらを変換する必要があります

を

%timeit pd.to_datetime(test_dts) 
10 loops, best of 3: 31.6 ms per loop

pd.Timestampでそれぞれを個別に処理するのが遅い：

%timeit [pd.Timestamp(dt) for dt in test_dts] 
10 loops, best of 3: 166 ms per loop

出典

2016-12-01 20:36:11 root

なぜタイムスタンプコンストラクタは日付文字列を解析する最も速い方法ですか？

答えて

関連する問題