私はApache sparkには新しく、これを回避するいくつかのPOCを試しています。私は構造化されているjsonログを読み込もうとしていますが、いくつかのフィールドは常に保証されているとは限りません。例えば、 { "item": "A", "customerId": 123, "hasCustomerId": true, . . . }, { "item": "B", "hasCustomerId": false, . . . } }
これらのJSONログをCSVに変換すると仮定します。単純なSelect文ですが、2番目のJSONにはフィールドがありません(識別子はありますが)、どうすればこのことを処理できるか分かりません。JSONログの選択(無視されます)Spark SQL
私は
item, customerId, ....
A , 123 , ....
B , null/0 , ....
あなたは私だけでJSONを読み取ることができるようになりますsqlContext.read.json(パス) –
を使用することができますが、私は行方不明のフィールドを読んで詳細については心配です – fireants