pyspark RDD to DataFrame

私はSparkを初めて使用しています。pyspark RDD to DataFrame

(326033430, [Row(userid=326033430, poiid=u'114233866', _mt_datetime=u'2017-06-01 14:54:48', outmoney=1127.0, partner=2, paytype=u'157', locationcity=u'\u6f4d\u574a', locationprovince=u'\u5c71\u4e1c\u7701', location=None, dt=u'20170601')])

326033430は大きなグループである：それは次のような構造でRDDを与える

は、私がデータフレームを持っていると私は、「ユーザーID」

def test_groupby(df): 
    return list(df) 

high_volumn = self.df.filter(self.df.outmoney >= 1000).rdd.groupBy(
        lambda row: row.userid).mapValues(test_groupby)

によってグループそれには、次のコマンドを使用していました。

私の質問は、このRDDをDataFrame構造に戻すにはどうすればいいですか？私がそれを行えない場合、私は行の用語からどのように値を得ることができますか？

ありがとうございます。

出典

2017-06-27 Ippon

なぜgroupbyの前にrddに変換しましたか？あなたはrddに変換せずにそれを行うことができ、あなたは新しいデータフレームを返すでしょう。 –

あなただけ

from pyspark.sql.functions import * 
high_volumn = self.df\ 
      .filter(self.df.outmoney >= 1000)\ 
      .groupBy('userid').agg(collect_list('col'))

と.agg方法であなたは残りのデータで何をしたいのか渡す必要があります。

このリンクに従ってください：http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.agg

出典

2017-06-27 12:44:11

答えて

関連する問題