flumeエージェント間の並行性を管理する方法。

私はビッグデータプロジェクトに取り組んでいます。私たちはflumeを使ってsftpからHDFSにファイルをダウンロードしています。次に、3つのエージェントを構成しました。彼らは同じソースから読んだ。結果として、私たちはHDFSに3つの重複ファイルを取得しますが、これはうまくいかないでしょう。一方、ファイルは1つだけ必要です。しかし、処理されたファイルのトレーサビリティを維持し、エージェント間の並行性を管理する必要があります。例として、3つの主エージェントA1、A2、およびA3があります。ファイルxxx.csvが処理されているか、エージェントA2が処理中です。他の人はそれを処理せず、未処理のファイルを探します。したがって、各ファイルは1つのエージェントだけで処理する必要があります。flumeエージェント間の並行性を管理する方法。

似たような問題に取り組んでいる人はいますか？

出典

2017-06-15 Chayma Sakouhi

どのような種類のソースを使用していますか？ – gorros

load balancing sink processorで1つの送信元と3つのシンクを持つことができます。

出典

2017-06-23 09:58:31 gorros

flumeエージェント間の並行性を管理する方法。

答えて

関連する問題