は、現在のプロセスの手順は次のとおりです。効率的にカフカからインパラテーブルにデータを移動する方法は?ここ
- Flafkaは、HDFS上の「ランディングゾーン」にログを書き込みます。 Oozieによりスケジュール
- 仕事、ステージング領域へのランディングゾーンからコピーの完全なファイルを。
- ステージングデータは「スキーマified」の位置としてステージング領域を使用するハイブテーブルによるものです。ステージングテーブルから
- レコード(例えば
insert into permanent_table select * from staging_table
)永久ハイブテーブルに追加されます。 - ハイブテーブルからのデータは、インパラに
refresh permanent_table
を実行することにより、インパラに利用可能です。
私が構築したプロセスを見て、それ悪い「におい」:データの流れを損なうあまりにも多くの中間ステップがあります。
約20か月前に、データがAmazon Kinesisパイプからストリームされていて、ほぼリアルタイムで、Impalaによって照会可能なデモが見られました。私は彼らがかなり醜い/巻き込まれた何かをしたとは思わない。 KafkaからImpala(おそらくParquetにシリアル化できるKafkaの消費者)にデータをストリームするもっと効率的な方法はありますか?
"低遅延SQLへのデータのストリーミング"は、かなり一般的な使用例でなければならないと思います。だから私は他の人がこの問題をどのように解決したか知りたいと思っています。
をand-impala /)はホップ数が少なく、比較的高速な代替アーキテクチャです – vmachan
これは役に立ちますか? https://blog.cloudera.com/blog/2015/11/how-to-ingest-and-query-fast-data-with-impala-without-kudu/ –