-1
列単位で値を集計するDataFrameを転置したいと思います。私は例とそれをilustrateしてみましょう:このDATAFRAME考えるTranspose Spark DataFrame配列内での集約
は:
val df = sc.parallelize(Seq(("A","B","C"), ("D", "E", "F"), ("X", "Y", "Z"), ("A", "N", "Z"))).toDF("col1", "col2", "col3")
df.show()
+----+----+----+
|col1|col2|col3|
+----+----+----+
| A| B| C|
| D| E| F|
| X| Y| Z|
| A| N| Z|
+----+----+----+
期待される出力は次のようなものでなければなりません:
col1: Array("A", "D", "X")
col2: Array("B", "E", "Y", "N")
col3: Array("C", "F", "Z")
が本当のデータフレームは、列の数百程度含まれている可能性が考えてみましょう。出力の列の順序を保持する必要はありません。
編集:列内に繰り返し要素がありますが、固有の要素が必要な場合もあります。
私はscala 2.11でSpark 2.0.2を使用しています。
提案がありますか?
ありがとうございます!
この[SOリンク](https://stackoverflow.com/questions/40892459/spark-transpose-dataframe-without-aggregating)あなたに興味があるかもしれません。 –