0
ソースデータ(xls)の抽出とHDFSへのインジェクトが進行中です。これらのファイルをCSV形式またはJSON形式で記述する方が良いでしょうか?そのうちの1つを選択することを検討していますが、電話をかける前に、いずれかのメリット&のデメリットが何であるか疑問に思っています。私たちが把握しようとしているダウンストリームアプリケーションのHDFSへの書き込み中のJSON対CSVファイル形式の相違
要因は以下のとおりです。
パフォーマンス(データ量がGB 2-5である) 読み込んで、それはこれらのファイルのいずれかからのメタデータ(構造)の情報を抽出するために、どのように簡単にデータの読み取り 対。
JSON & CSVと両方をサポートする他のアプリケーションでは、注入されたデータが消費されます。
感謝を。私は以前この記事を読んだことがありましたが、CSVとJSONの両方が分割可能で、両方ともブロックの圧縮をサポートしていないため、まだ説得できませんでした。 JSONは、各データにキーワードがあるので、少しだけメモリを消費します。パフォーマンスの面では、それ以外のものは見当たりませんでした。 – jb04