csvファイルをあるサーバー(Unix Server A)からhdfsディレクトリに送信します。どのcsvファイルに基づいて、hdfsの異なるディレクトリにそれらを格納したいのですか?hdfs kafka、flumeの異なるディレクトリにあるファイルの読み込み
私は、kafkaプロデューサがUNIXサーバAのkafkaに送る予定の11のcsvファイルを持っています。 csvファイルの最初の要素にはキーが含まれます。私は最初の要素を取り、それをカフカのメッセージの鍵にしたいと思います。また、カフカのメッセージとしてデータの価値を伝えたいと思います。
カフカクラスターにヒットすると、データを取り込むflumeエージェントと、キーでデータを並べ替えるインターセプターがあり、11個のカフカトピックチャネル(flumeのチャネル)に向けることができます。チャネルは、データを適切なhdfsディレクトリにリダイレクトします。
このデザインは意味がありますか?それとももっと良い方法がありますか?たぶんスパークストリーミング?
また、Kafka ConnectとConfluentオープンソースHDFSシンクコネクタ(https://github.com/confluentinc/kafka-connect-hdfsを参照) –
を使用することをお勧めしますが、残念ながらこちらのクラスタ(CDH)では利用できません。 – Defcon