0
Parquet
に変換する必要があるファイルは、沢山あるJSON
です。この(ネストされたプロパティがトップレベルを作り、接尾辞として_
を取得している)されてEMR/Sparkを使用してJSONをパーケットに変換
{
"foo": "bar",
"props": {
"prop1": "val1",
"prop2": "val2"
}
}
そして私は、その構造Parquet
ファイルにそれらを変換する必要があります:彼らはこのような何かを見て
foo=bar
_prop1=val1
_prop2=val2
ここにキャッチがあります:JSON
文書のすべてが同じプロパティを持っているわけではありません。したがって、doc1にprop1
とprop2
があり、doc2にprop3
がある場合、最後のParquet
ファイルは3つのプロパティを持つ必要があります(一部のレコードではnullになります)。
Parquet
は、フロントアップ
schema
を必要としていることを理解し
:
- はすべて
JSON
ファイル - 推論(カイト、like thisを使用して)、ドキュメントあたり
schema
- は、すべてのマージをトラバースthe
schemas
- 書き込みを開始する
Parquet
このアプローチでは、非常に複雑で、遅く、エラーを起こしやすいという印象を受けます。 Spark
を使ってこれを達成するより良い方法があるのだろうかと思います。