2016-09-15 12 views
0

を使用して、タイムスタンプの差に基づいて、グループ行私はこのようなスパークDATAFRAME有する:同様に、グループに欲しいスパークDATAFRAME - R

timestamp   userId 
2016-07-26 12:05:00 a 
2016-07-26 12:05:01 b 
2016-07-26 12:05:02 c 
2016-07-26 12:05:03 d 
2016-07-26 12:05:04 e 
2016-07-26 12:05:05 f 

1つのグループに5秒差内にある行を:

timestamp   userId group 
2016-07-26 12:05:00 a  1 
2016-07-26 12:05:01 b  1 
2016-07-26 12:05:02 c  1 
2016-07-26 12:05:03 d  1 
2016-07-26 12:05:04 e  1 
2016-07-26 12:05:05 f  2 

spark DataFrameをRデータフレームに変換せずにこれを行う方法はありますか?

+0

Rで処理したいので、Rで適切なデータ構造を使用する必要がありますか? –

+0

あなたは 'sparkR'を使っていますか?どのバージョン? – Sotos

+0

@Sotos it's 1.6.2 –

答えて

0

この特定の機能は一般にセッション化と呼ばれ、Webアナリストが特定のユーザーのセッションを識別するためによく使用されます。 sparksqlcontextで使用できるハイブにはUDFが組み込まれています。 たとえば、 https://docs.treasuredata.com/articles/udfs

関連する問題