2
定義済みのスキーマを使用してデータフレーム内のjsonファイルを読み込むpysparkアプリケーションを作成しました。pysparkでJSON Schema Strutureを定義する設定ファイル
schema = StructType([
StructField("domain", StringType(), True),
StructField("timestamp", LongType(), True),
])
df= sqlContext.read.json(file, schema)
以下のコードサンプルでは、私はpysparkアプリケーションを私はconfigまたはiniファイルなどの一種で、このスキーマを定義することができますどのように見つけて、メインでそれを読むための方法が必要です。
今後、メインのpysparkコードを変更せずに必要があれば、jsonを変更するためのスキーマを変更するのに役立ちます。
ありがとうございました。
偉大な答え、なぜそれが受け入れられなかったか分からない。 :) –