0
データを単一のデータフレームにマージするには、pySpark 1.6.2のドキュメントを参照しています。単一のpySparkデータフレームにリストをマージする
Iは19の項目(リスト名:サイズ)のリストを持っている
[9, 78, 13, 3, 57, 60, 66, 32, 24, 1, 2, 15, 2, 2, 76, 79, 100, 73, 4]
及び19と同じではない長さのサブリスト(リスト名:データ)を含む2Dリスト
[[a,b,c],[d,e,f,g,h,i,j].......[x,y,z,a,f]]
Iは
name size
0 [a,b,c] 9
1 [d,e,f,g,h,i,j] 78
2 ........ ...
. ........ ...
. ........ ...
18 [x,y,z,a,f] 4
しかし、私はそれを行う方法を見つけることができません。
私はすでにリストを反復しており、各反復の後に2つの列を追加することができます。 しかし、Dataframeを作成して段階的に記入する方法を見つけるのは難しいです。
これは私のコードです:
schema = StructType([StructField("name", StringType(), True), StructField("size", IntegerType(), True)])
dataframe = sqlContext.createDataFrame([],schema)
for i in range(len(data)):
sizes.append(len(data[i]))
t = sqlContext.DataFrame([[data[i], sizes[i]]],
columns=['name', 'size'])
dataframe = dataframe.append(t, ignore_index=True)
dataframe.show()
が、それはこの私を返します。
+----+----+
|name|size|
+----+----+
+----+----+
ありがとう!それは完全に動作します – Kratos