0
は、私は以下の表のようなpysparkでデータフレームを作成したい:単一のヘッダ(1列の多数のcols)を持つデータフレームを作成し、pysparkのこのデータフレームに値を更新する方法は?
category| category_id| bucket| prop_count| event_count | accum_prop_count | accum_event_count ----------------------------------------------------------------------------------------------------- nation | nation | 1 | 222 | 444 | 555 | 6677
ので、コードは私が以下試した:
てAssertionError:
schema = StructType([])
df = sqlContext.createDataFrame(sc.emptyRDD(), schema)
df = df.withColumn("category",F.lit('nation')).withColumn("category_id",F.lit('nation')).withColumn("bucket",bucket)
df = df.withColumn("prop_count",prop_count).withColumn("event_count",event_count).withColumn("accum_prop_count",accum_prop_count).withColumn("accum_event_count",accum_event_count)
df.show()
これはエラーを与えています。 colは列である必要があります。
また、列の値を更新する必要がありますまた、更新は1行になります。
これを行う方法??
整数型の 'bucket'、' even_count'、 'accum_prop_count'、' accum_event_count'のようなものですか?もしそうなら、それらは列を作ることができません。そして、 'F.lit()'を使う必要があります。 – MaFF
なぜ空のデータフレームが必要ですか? ?あなたはすべての行の値を持っており、それらをデータフレームの作成に使うことができます。 – Suresh