2017-06-15 8 views
0

私はビッグデータプロジェクトに取り組んでいます。私たちはflumeを使ってsftpからHDFSにファイルをダウンロードしています。 次に、3つのエージェントを構成しました。彼らは同じソースから読んだ。結果として、私たちはHDFSに3つの重複ファイルを取得しますが、これはうまくいかないでしょう。一方、ファイルは1つだけ必要です。しかし、処理されたファイルのトレーサビリティを維持し、エージェント間の並行性を管理する必要があります。例として、3つの主エージェントA1、A2、およびA3があります。ファイルxxx.csvが処理されているか、エージェントA2が処理中です。他の人はそれを処理せず、未処理のファイルを探します。したがって、各ファイルは1つのエージェントだけで処理する必要があります。flumeエージェント間の並行性を管理する方法。

似たような問題に取り組んでいる人はいますか?

+0

どのような種類のソースを使用していますか? – gorros

答えて

関連する問題