2016-03-28 14 views
1

スキーマが常に進化しているJSON/XMLの入力が多様化しています。パフォーマンスの向上のために、Hadoop/Hive環境でORCまたはParquetフォーマットを使用してそれらを処理したい。スキーマの進化(SCD)JSON/XMLをORC /パーケット形式に変換

私は同じ目的を達成するための一般的なスタイルを知っています: JSONSerdeまたはXMLSerdeライブラリを使用して、まずこれらのserdeを使用してハイブテーブルを作成します。後でselect * fieldsクエリが各xml/jsonハイブテーブルで起動され、orcとして保存されるか、または寄木張りとして別のテーブルに保存されます。成功したら、これらのSerde TableとXML/JSONデータを削除できます。

同じことを行うもう1つの良い方法は何でしょうか?

答えて

0

これは、JSON/XMLデータをパーケット形式にオフラインで変換する最も一般的な方法です。 しかし、別の方法として、JSON/XMLを解析し、各JSONレコードのための寄木細工グループを作成することができます。基本的に:

オープンJSONファイル 個々のレコードは、レコードからの寄木グループを作成し、別のファイル を開き 読む#2 を読み込むには、#3 で作成したファイルに寄木細工のグループを書く内のすべてのレコードのためにこれを行いますファイル 両方のファイルを閉じます。

私たちは、このようなコンバータを、使用されているケースの1つについて考え出しました。

関連する問題