2016-11-13 12 views
0

によってデータフレームの列をスパーク、私はそのようなデータフレームがあります。がソート日付

+---+-------------------+ 
|C1 |  C2   | 
+---+-------------------+ 
| A |21/12/2015-17-14-12| 
| A |21/12/2011-20-12-44| 
| B |11/02/2015-15-31-11| 
| B |09/04/2015-13-38-05| 
| C |11/06/2013-23-04-35| 
+---+-------------------+ 

を2列目には、タイムスタンプ、DD/MM/YYYY-HH-MM-SSです。私は多分、私がUDFを使用する必要があること

+---+-------------------+ 
|C1 |  C2   | 
+---+-------------------+ 
| A |21/12/2011-20-12-44| 
| C |11/06/2013-23-04-35| 
| B |11/02/2015-15-31-11| 
| B |09/04/2015-13-38-05| 
| A |21/12/2015-17-14-12| 
+---+-------------------+ 

のように各行をソートしたいですか?あなたが任意のアイデアを持っていますか?

答えて

1

シンプルな1ライナーが必要です。必要な輸入

import org.apache.spark.sql.functions.unix_timestamp 

とコード:

input.sort(unix_timestamp($"C2", "dd/MM/yyyy-HH-mm-ss"))