0
私はデータフレームをパイプで区切られた値に変換し、それをSparkシェル(scala)のファイルに書き出します。しかし、私はPySpark側では無知です。助けていただければ幸いです。PySparkのmkStringに相当するものは何ですか?
特に、各列を '|'で結合する方法はわかりません。説明
stgDF.rdd.map(lambda line: "|".join([str(x) for x in line]))
:
'|'.join
が、それはScalaの-としてリストを取る中mkString
のと同じです。ここ
は、Scalaのバージョン
scala> val stgDF = spark.read.table("tbl")
stgDF: org.apache.spark.sql.DataFrame = [name: string, num: int]
scala> stgDF.map(line => line.mkString("|")).take(2) //How do I do in PySpark?
res0: Array[String] = Array(spark|2001, yarn|2002)
scala> val tmp = stgDF.map(line => line.mkString("|")).rdd
tmp: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[20] at rdd at <console>:25
scala> tmp.saveAsTextFile("stgDF")
説明してください。 – Bala
okは助けてくれる答え – ags29
を修正します – ags29