2016-10-28 12 views
0

csvファイルをあるサーバー(Unix Server A)からhdfsディレクトリに送信します。どのcsvファイルに基づいて、hdfsの異なるディレクトリにそれらを格納したいのですか?hdfs kafka、flumeの異なるディレクトリにあるファイルの読み込み

私は、kafkaプロデューサがUNIXサーバAのkafkaに送る予定の11のcsvファイルを持っています。 csvファイルの最初の要素にはキーが含まれます。私は最初の要素を取り、それをカフカのメッセージの鍵にしたいと思います。また、カフカのメッセージとしてデータの価値を伝えたいと思います。

カフカクラスターにヒットすると、データを取り込むflumeエージェントと、キーでデータを並べ替えるインターセプターがあり、11個のカフカトピックチャネル(flumeのチャネル)に向けることができます。チャネルは、データを適切なhdfsディレクトリにリダイレクトします。

このデザインは意味がありますか?それとももっと良い方法がありますか?たぶんスパークストリーミング?

+0

また、Kafka ConnectとConfluentオープンソースHDFSシンクコネクタ(https://github.com/confluentinc/kafka-connect-hdfsを参照) –

+0

を使用することをお勧めしますが、残念ながらこちらのクラスタ(CDH)では利用できません。 – Defcon

答えて

0

あなたが言及した設定は一目瞭然です。

インターセプターは、イベントの詳細をヘッダーに入れるのに適しています。しかし、メッセージを並べ替える/指示するのはチャンネルだと言いました。その代わりに、ヘッダーを指定して、インターセプターパスの一部としてhdfsシンクに追加することができます。

関連する問題