スキーマが常に進化しているJSON/XMLの入力が多様化しています。パフォーマンスの向上のために、Hadoop/Hive環境でORCまたはParquetフォーマットを使用してそれらを処理したい。スキーマの進化(SCD)JSON/XMLをORC /パーケット形式に変換
私は同じ目的を達成するための一般的なスタイルを知っています: JSONSerdeまたはXMLSerdeライブラリを使用して、まずこれらのserdeを使用してハイブテーブルを作成します。後でselect * fieldsクエリが各xml/jsonハイブテーブルで起動され、orcとして保存されるか、または寄木張りとして別のテーブルに保存されます。成功したら、これらのSerde TableとXML/JSONデータを削除できます。
同じことを行うもう1つの良い方法は何でしょうか?