2016-08-07 9 views
1
df1: 

Timestamp: 

1995-08-01T00:00:01.000+0000 

pysparkを使用してデータフレームのタイムスタンプ列で月の日を区切る方法はありますか。コードを提供することができません、私はスパークするために新しいです。私はどのように進行するかについての手掛かりはありません。pysparkでのタイムスタンプの解析

答えて

2

あなたはUNIX_TIMESTAMP使用して、このタイムスタンプを解析することができます

from pyspark.sql import functions as F 

format = "yyyy-MM-dd'T'HH:mm:ss.SSSZ" 
df2 = df1.withColumn('Timestamp2', F.unix_timestamp('Timestamp', format).cast('timestamp')) 

その後、あなたは新しいタイムスタンプ列にDAYOFMONTHを使用することができます。

df2.select(F.dayofmonth('Timestamp2')) 

詳細これらの機能についての詳細は、pyspark functions documentation

+0

'https:// stackoverflow.com/questions/48195836/conversion-day-lights-savings-time-string-to-timestamp-giving-wrong-results'をご覧ください。 – User12345

0

コード:

df1.select(dayofmonth('Timestamp').alias('day')) 
関連する問題