スパークDATAFRAME - R - 優秀な図書館

を使用して、タイムスタンプの差に基づいて、グループ行私はこのようなスパークDATAFRAME有する：同様に、グループに欲しいスパークDATAFRAME - R

timestamp   userId 
2016-07-26 12:05:00 a 
2016-07-26 12:05:01 b 
2016-07-26 12:05:02 c 
2016-07-26 12:05:03 d 
2016-07-26 12:05:04 e 
2016-07-26 12:05:05 f

1つのグループに5秒差内にある行を：

timestamp   userId group 
2016-07-26 12:05:00 a  1 
2016-07-26 12:05:01 b  1 
2016-07-26 12:05:02 c  1 
2016-07-26 12:05:03 d  1 
2016-07-26 12:05:04 e  1 
2016-07-26 12:05:05 f  2

spark DataFrameをRデータフレームに変換せずにこれを行う方法はありますか？

出典

2016-09-15 Abhishek Gupta

Rで処理したいので、Rで適切なデータ構造を使用する必要がありますか？ –

あなたは 'sparkR'を使っていますか？どのバージョン？ – Sotos

@Sotos it's 1.6.2 –

この特定の機能は一般にセッション化と呼ばれ、Webアナリストが特定のユーザーのセッションを識別するためによく使用されます。 sparksqlcontextで使用できるハイブにはUDFが組み込まれています。たとえば、 https://docs.treasuredata.com/articles/udfs

出典

2016-09-19 18:02:37

スパークDATAFRAME - R

答えて

関連する問題