2017-11-08 1 views
0

Sparkストリーミング(Flume execから)から1分ごとにネットワークのキャプチャされたデータを読み込み、IPアドレスに従ってデータを集め、最後にハイブに保存します。高速化するために、IPアドレス上にパーティションを持つHive ORCテーブルを作成します。うまく動作します。唯一の問題は、それが多くの(いくつのIPアドレスに依存する)小さなファイルを作成するたびに、 "ALTER TABLE ... CONCATENATE;"手動でマージするのは簡単ですが、毎分新しいテーブルファイルを作成するのではなく、最初の1分のテーブルファイルに新しいデータを段階的にマージ/追加できるソリューションがあるかどうか尋ねたいと思っています。どんな提案も感謝しています!ハイブは、定期的に増分データをhdfs内の同じテーブルファイルに追加または挿入できますか?

答えて

0

私はあきらめますが、Hiveはパフォーマンス上の考慮のために既存のデータファイルにコンテンツを追加できないため、直接的な解決策はありません。今私の代わりに毎週それを連結する、問題はクエリがエラーメッセージ(データファイルを見つけることができないと不平を言う)が連結を行っているときに壊れてしまうので、大きなビジネスへの影響があります。今私はより柔軟で更新/削除操作を提供できるHBaseまたはKuduでHiveを置き換えることを考えています。

関連する問題