現在、私は現在のデータ解析プラットフォームを置き換えるために大きなデータを採用しようとしています。私の現在のプラットフォームはかなりシンプルで、私のシステムはさまざまな上流のシステムから構造化されたcsvフィードファイルをたくさん取得し、それらを集約のためにJavaオブジェクト(つまりメモリ内)としてロードします。データウェアハウスとしてHiveを使用している私の場合の利点はありますか?
私は、Sparkを使用して、集約プロセスのためにJavaオブジェクトレイヤを置き換えたいと考えています。
私は、Sparkがhdfs/filesystemからファイルを読み込むことをサポートしていることを理解しています。だから、データウェアハウスとしてのハイブは必須ではないようです。しかし、私はまだcsvファイルをハイブにロードしてから、Sparkを使ってハイブからデータを読み込むことができます。
Spark DFにcsvファイルを直接ロードするのではなく、私がHiveレイヤーを導入した場合の私の状況はどうですか?
ありがとうございました。
何もロードする必要はありません。 hdfs/filesystemディレクトリに外部テーブルを作成し、スパークを含むメタストアを使用しているものを使用してクエリを実行できます。 –
フルロードとインクリメンタルな方法でデータを処理する場合は、昨日のデータをテーブル形式で保存し、今日のデータで増分を処理する必要があるため、ハイブレイヤーを使用してください。 Extraction and Transformingを通常のファイルシステムに戻して保存するだけの場合は、sparkだけを使用できます。 –