2016-11-21 4 views
0

Flumeを使用してストリームデータをhdfsに追加する必要があります。既存のログファイルを上書きせずに、ストリーミングデータをhdfsの既存のファイルに追加する必要があります。 MRコードのリンクを提供してください。Flumeのhdfsファイルにストリーミングログデータを追加するには?誰かがMRソースコードを持っていて、データをhdfsのファイルに追加するのですか?

+0

ようこそStackOverflow。これまでに何を試しましたか?それはあなたがSOコミュニティにあなたのために仕事をするように依頼する前にやったことを実践することができれば、常に助けになります.. –

答えて

0

Flumeは、デフォルトでhdfsディレクトリの既存のデータを上書きしません。これは、flumeがフォルダ名にシンクタイムスタンプ(たとえば、 Flume.2345234523)を追加しているためです。したがって、hdfsの同じディレクトリでflumeを再度実行すると、同じhdfsパスの下に別のファイルが作成されます。

+0

こんにちはFarslan、データはローカルファイルシステムのログファイルのように継続的に取り込まれ、hdfs flumeを使用します。データはリアルタイムでhdfsファイルに反映される必要があります。 –

+0

Flumeは任意のソースからログファイルを読み込み、hdfsにロードできます。特定のファイルをhdfsに追加する場合は、シンクから設定することができます。 hdfsファイルは、定義した分だけデータを取り込むことができます。例えば、 'hdfs.rollSize = 1024'のように、このファイルは1024MBのデータを読み込みます。全体的に、hdfsにロードファイルを流すと、指定されたディレクトリの下に自動的にファイルが作成されます。ハイブからこのファイルを読むと、親フォルダのパスを与えることができます。 – Farslan

+0

こんにちは、私は** FTPサーバー**のソースとしてテキストファイルを含んでいる必要があり、私はそれをFlumeのソースとして設定する必要があります。ストリーミングテキストデータのFTPソースとHDFSシンクに設定する必要のある設定について教えてください。 –

関連する問題