タイムスタンプがUNIXのタイムスタンプを表す文字列である巨大な量のCSVファイルを処理する必要があります。これらの列を効率的に変更する方法がまだ見つかりませんでした。Unixタイムスタンプ(ミリ秒単位)の行をdatetimeに変換する
これは私が思いついたことですが、これはもちろん列だけを複製するもので、何とか元のデータセットに戻す必要があります。私はそれがDataFrame
を作成するときに行うことができると確信していますか?
import sys
if sys.version_info[0] < 3:
from StringIO import StringIO
else:
from io import StringIO
import pandas as pd
data = 'RUN,UNIXTIME,VALUE\n1,1447160702320,10\n2,1447160702364,20\n3,1447160722364,42'
df = pd.read_csv(StringIO(data))
convert = lambda x: datetime.datetime.fromtimestamp(x/1e3)
converted_df = df['UNIXTIME'].apply(convert)
これはしかし、私はデータセット全体を取得するためにpd.apply()
のようなものを使用したい列「UNIXTIME」を選択し、この
0 2015-11-10 14:05:02.320
1 2015-11-10 14:05:02.364
2 2015-11-10 14:05:22.364
Name: UNIXTIME, dtype: datetime64[ns]
に
0 1447160702320
1 1447160702364
2 1447160722364
Name: UNIXTIME, dtype: int64
からそれを変更します変換された列で返されるか、すでに書いたように、単にCSVからDataFrameを生成するときにdatetimesを作成するだけです。
ああ、私は完全にunit'パラメータは、おかげで、それは素晴らしいものだ 'ことを逃しました! parse_datesを介して '.read_csv'にそれを含めるようにプルリクエストを行います。 – tamasgal
これは、タイムゾーンの問題のために間違った時間につながる可能性があります。 –
@PengjuZhao OPの質問では、Teudimundoの答えがそれを解決するためには、 – EdChum