2017-01-10 14 views
0

ソースデータ(xls)の抽出とHDFSへのインジェクトが進行中です。これらのファイルをCSV形式またはJSON形式で記述する方が良いでしょうか?そのうちの1つを選択することを検討していますが、電話をかける前に、いずれかのメリット&のデメリットが何であるか疑問に思っています。私たちが把握しようとしているダウンストリームアプリケーションのHDFSへの書き込み中のJSON対CSVファイル形式の相違

要因は以下のとおりです。

パフォーマンス(データ量がGB 2-5である) 読み込んで、それはこれらのファイルのいずれかからのメタデータ(構造)の情報を抽出するために、どのように簡単にデータの読み取り 対。

JSON & CSVと両方をサポートする他のアプリケーションでは、注入されたデータが消費されます。

答えて

1

この記事を読んで、それはあなたの懸念に対処します:共有のため

http://inquidia.com/news-and-info/hadoop-file-formats-its-not-just-csv-anymore

+0

感謝を。私は以前この記事を読んだことがありましたが、CSVとJSONの両方が分割可能で、両方ともブロックの圧縮をサポートしていないため、まだ説得できませんでした。 JSONは、各データにキーワードがあるので、少しだけメモリを消費します。パフォーマンスの面では、それ以外のものは見当たりませんでした。 – jb04

関連する問題