ハイブは、定期的に増分データをhdfs内の同じテーブルファイルに追加または挿入できますか？

Sparkストリーミング（Flume execから）から1分ごとにネットワークのキャプチャされたデータを読み込み、IPアドレスに従ってデータを集め、最後にハイブに保存します。高速化するために、IPアドレス上にパーティションを持つHive ORCテーブルを作成します。うまく動作します。唯一の問題は、それが多くの（いくつのIPアドレスに依存する）小さなファイルを作成するたびに、 "ALTER TABLE ... CONCATENATE;"手動でマージするのは簡単ですが、毎分新しいテーブルファイルを作成するのではなく、最初の1分のテーブルファイルに新しいデータを段階的にマージ/追加できるソリューションがあるかどうか尋ねたいと思っています。どんな提案も感謝しています！ハイブは、定期的に増分データをhdfs内の同じテーブルファイルに追加または挿入できますか？

出典

2017-11-08 peter

私はあきらめますが、Hiveはパフォーマンス上の考慮のために既存のデータファイルにコンテンツを追加できないため、直接的な解決策はありません。今私の代わりに毎週それを連結する、問題はクエリがエラーメッセージ（データファイルを見つけることができないと不平を言う）が連結を行っているときに壊れてしまうので、大きなビジネスへの影響があります。今私はより柔軟で更新/削除操作を提供できるHBaseまたはKuduでHiveを置き換えることを考えています。

出典

2017-11-24 01:10:51 peter

ハイブは、定期的に増分データをhdfs内の同じテーブルファイルに追加または挿入できますか？

答えて

関連する問題