文字列として読み込まれた列を配列の列に変換するにはどうすればよいですか? はすなわち、スキーマSpark:文字列の列を配列に変換する
scala> test.printSchema
root
|-- a: long (nullable = true)
|-- b: string (nullable = true)
+---+---+
| a| b|
+---+---+
| 1|2,3|
+---+---+
| 2|4,5|
+---+---+
以下から変換する:可能な場合は
scala> test1.printSchema
root
|-- a: long (nullable = true)
|-- b: array (nullable = true)
| |-- element: long (containsNull = true)
+---+-----+
| a| b |
+---+-----+
| 1|[2,3]|
+---+-----+
| 2|[4,5]|
+---+-----+
スカラ座やPython実装の両方を共有してください。 関連するノートでは、ファイル自体を読み込む際にどのように気をつけますか? 〜450列のデータがあり、この形式で指定したいデータはほとんどありません。 は現在、私は以下のようにpysparkに読んでいます:
df = spark.read.format('com.databricks.spark.csv').options(
header='true', inferschema='true', delimiter='|').load(input_file)
感謝を。