pysparkのpipelinedRDDをデータフレームに変換しようとしています。これは、コードスニペットです:PipelinedRDDをデータフレームに変換する
newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row),))) df = newRDD.toDF()
私もコードを実行すると、私はこのエラーが表示されます。
'list' object has no attribute 'encode'
私はそのように変換するなど、複数の他の組み合わせを、試してみましたパンダのデータフレーム使用:
newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"])(row + (tagScripts(row),))) df = newRDD.toPandas()
しかし、私エンこのエラーを受け取るまでD:
AttributeError: 'PipelinedRDD' object has no attribute 'toPandas'
任意の助けいただければ幸いです。あなたの時間をありがとう。
SparkSessionは、Spark 1.6では利用できません。 SparkSessionは、Spark 2.0でのみ使用可能になりました。私はSpark 2.0にアップグレードできません –