私はSpark 1.3を使用しています。私はいくつかの日付ベースの計算をしたい。次のデータセットでは、一意のIDごとに、beging_dateが最大(最新のレコード)のレコードを取得します。SparkSQL datetime関数
また、ファイルからデータを読み込むときに、TimestampType(import org.apache.spark.sql.types.TimestampType)としてキャストする必要がありますか?ここ
は、いくつかのサンプルデータである:
ID beging_date END_DATE
1 2016年1月1日20:06:00.0 2016年1月4日20:06:00.0
2 1/2013分の5 20:06:00.0 2016年1月8日20:06:00.0
1 2013年1月6日20:06:00.0 2016年1月18日20:06:00.0
3 2/1/2013 20:06:00.0 2/5/2016 20: 06:00.0
1 2013年1月20日20:06:00.0 2016年2月4日20:06:00.0
3 2013年3月5日20:06:00.0 2016年3月8日20: 06:
のID beging_dateのEND_DATE
1 2013年1月20日20:06:00.0 2016年2月4日20:06:00.0
ここ00.0は、所望の出力であります
2 2013年1月5日20:06:00.0 2016年1月8日20:06:00.0
3 2013年3月5日20:06:00.0 2016年3月8日20:06:00.0