私はsimple-salesforceパッケージを使用してSFDCから抽出したデータを使用しています。 私はスクリプトとSpark 1.5.2のためにPython3を使用しています。私は、データフレームを作成しようとしていますpysparkを使用してタプルのリストからDataFrameを作成
StructType(List(StructField(Id,StringType,true),StructField(PackSize,StringType,true),StructField(Name,StringType,true)))
:私のスキーマは、このようになります
[('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')]
[('Id', 'a0w1a0000003xAAI'), ('PackSize', 1.0), ('Name', 'B')]
[('Id', 'a0w1a00000xB3AAI'), ('PackSize', 30.0), ('Name', 'C')]
...
このデータはRDDである
v_rdd
と呼ば:私は、次のデータを含むRDDを作成しましたが、このRDDから:
sqlDataFrame = sqlContext.createDataFrame(v_rdd, schema)
私は私のデータフレームを印刷:
sqlDataFrame.printSchema()
そして、次を得る:
+--------------------+--------------------+--------------------+
| Id| PackSize| Name|
+--------------------+--------------------+--------------------+
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
|[Ljava.lang.Objec...|[Ljava.lang.Objec...|[Ljava.lang.Objec...|
私はこのように、実際のデータを見ることを期待しています:
+------------------+------------------+--------------------+
| Id|PackSize| Name|
+------------------+------------------+--------------------+
|a0w1a0000003xB1A | 1.0| A |
|a0w1a0000003xAAI | 1.0| B |
|a0w1a00000xB3AAI | 30.0| C |
あなたは私が識別助けてください私がここで間違っていること。
私のPythonスクリプトは長いですが、私は人々がそれを見分けるのが便利だろうとは確信していませんので、私は問題を抱えている部分だけを投稿しました。
事前にお問い合わせいただきありがとうございます。