2017-06-19 9 views
1

csv(> 900 GB)のデータファイルがHive 0.14テーブルが定義されているHDFSファイルシステムに格納されているシナリオがあります。データの分析クエリを実行する必要はなく、データの更新も実行する必要があります。基本的に、このデータ量のRDBMSの種類のシステム。 RDBMSの種類のシステム(Updates、Select)の潜在的な選択肢は何かを提案して、マインドパフォーマンスを重要な基準にしておくことができます。ビッグデータ用RDBMS

+0

ハイブは、更新クエリと分析クエリをサポートしています。あなたが達成しようとしている特定のものは、ハイブを使ってできないことは何ですか? –

+0

@piyushpankajハイブは更新をサポートしていますが、この多くのデータを考慮すると非常にコストがかかるでしょう。 – philantrovert

+0

私たちが直面している正確な問題です。 Hiveテーブルのデータに更新する必要がある特定のメトリックを導出する複数のシステムが存在する可能性があるため、できるだけ早く更新を継続したいと考えています。 –

答えて

0

PostgreSQLは、EDLからデータをロードするのに最適なオプションです。ホットデータをそこに置いて、速いクエリーを実行することができます。

+0

バッチをロードしようとすると毎日のデータ。現在、バッチデータの量は日常的には約300GB +近くになる可能性があります。このデータをポストグレーズに入れることは、それ自体時間のかかる仕事です。我々は、オープンソースとして利用可能な大規模なデータの世界で何らかのRDBMSを探しています –

関連する問題