2

定義済みのスキーマを使用してデータフレーム内のjsonファイルを読み込むpysparkアプリケーションを作成しました。pysparkでJSON Schema Strutureを定義する設定ファイル

schema = StructType([ 
    StructField("domain", StringType(), True), 
    StructField("timestamp", LongType(), True),        
]) 
df= sqlContext.read.json(file, schema) 

以下のコードサンプルでは、​​私はpysparkアプリケーションを私はconfigまたはiniファイルなどの一種で、このスキーマを定義することができますどのように見つけて、メインでそれを読むための方法が必要です。

今後、メインのpysparkコードを変更せずに必要があれば、jsonを変更するためのスキーマを変更するのに役立ちます。

ありがとうございました。

答えて

3

StructTypeStructTypeにPythonの辞書を変換するために使用することができるjsondictそれぞれ表現とfromJsonを得るために使用することができるjsonjsonValue方法を提供します。

schema = StructType([ 
    StructField("domain", StringType(), True), 
    StructField("timestamp", LongType(), True),        
]) 

StructType.fromJson(schema.jsonValue()) 

あなたはそれを超えて必要な唯一のものは、内蔵されてjsonモジュールStructTypeによって消費することができdictへの入力を解析します。

+0

偉大な答え、なぜそれが受け入れられなかったか分からない。 :) –

関連する問題