flume-ng

0熱

1答えて

Flumeでtaildirソースを使用して、.txtファイルの最新の行だけを追加するにはどうすればよいですか？

私は最近、質問Apache Flume - send only new file contents 私はより多くを学び、水路の将来のユーザーbenefittoより多くを提供するために、質問を言い換えていますが尋ねました。セットアップ：2つのサーバー.1つは、.txtファイルを使用して、行を定期的に追加します。目的：flume TAILDIR sourceを使用して、最後に書き込まれた行を別のサ

0熱

1答えて

水路例外一緒

をシンクいくつかの分は私がこの例外を取得した後、水路内の同じ時間に一緒に沈む java.lang.IllegalStateException: close() called when transaction is OPEN - you must either commit or rollback first at com.google.common.base.Precondition

2熱

2答えて

収集したすべてのツイートを1つのファイルに抽出する方法

Flumeを使用してツイートを収集し、HDFSに保存しています。収集部が正常に動作していて、ファイルシステム内のすべてのツイートを見つけることができます。今、これらのつぶやきをすべて1つのファイルに抽出したいと思います。問題は別のツイートは以下のように保存されているということです。私たちが見ることができるように、ツイートは128メガバイトのブロック内に格納さだけHDFSの正常な動作です、い

1熱

1答えて

Apache Flume Kafkaプロデューサ - partition_id/keyを動的に生成

私はApache Flumeを使用してKafkaトピックにメッセージを送信するタスクを持っています。警告は、メッセージに含めるIPアドレスに基づいてパーティションを指定する必要があることです。これを動的に実行するようにApache Flumeを設定する方法はありますか、カスタムProducerプラグインを実装する必要はありますか？ありがとうございます。

1熱

1答えて

flumeインターセプタを使用してファイルを1行ずつフィルタリングします。

.csvまたは.xl3から読み取るflumeエージェントを設定しようとしています。ファイルの例： ClientA ClientB Start-time End-time Duration Status 35862515 36958452 16/01/2017 16/01/2017 10 good 32456988 22583694 16/01/2017 16/01/2017 05 go

0熱

1答えて

hdfsシンクでavroファイルを作成するためのカスタムflume-ngソースの書き方は？

私は、hdfsシンク上にavroファイルを作成できるCustomSourceを書こうとしています。しかし、私はそれを理解することはできません。いくつかのガイドラインや例をご覧ください。 1.変更水路の設定：カスタム水路ソースを作成するために https://flume.apache.org/FlumeUserGuide.html しかし、ハイレベルで：

0熱

1答えて

Spooldirソース停止処理

ファイルを生成する遠隔のサーバーがあります。サーバーはhadoopクラスタに15分ごとにファイルをプッシュします。これらのファイルは、特定のディレクトリに格納されます。 flumeを使用して、ローカルディレクトリからファイルを読み込んでHDFSに送りました。ただし、SpoolDirはデータを処理するのに適しています。問題は、ファイルがディレクトリに書き込まれている間に処理をシャットダウンすること

0熱

1答えて

Apache Flume - 新しいファイルの内容のみを送信する

私はFlumeにとって非常に新しいユーザーです。私を絶対的なnoobとして扱ってください。特定のユースケースに対してFlumeを設定する際のマイナーな問題があり、助けてくれると期待していました。私はHDFSを使用していないことに注意してください。なぜなら、この質問はあなたがフォーラムで見たかもしれない他の質問とは異なるからです。 Oracle Virtual Boxの内部ネットワークを介して2台の

0熱

1答えて

flumeエージェント間の並行性を管理する方法。

私はビッグデータプロジェクトに取り組んでいます。私たちはflumeを使ってsftpからHDFSにファイルをダウンロードしています。次に、3つのエージェントを構成しました。彼らは同じソースから読んだ。結果として、私たちはHDFSに3つの重複ファイルを取得しますが、これはうまくいかないでしょう。一方、ファイルは1つだけ必要です。しかし、処理されたファイルのトレーサビリティを維持し、エージェント間の並

1熱

1答えて

複数のシンクを同じチャンネルから読み取ることができますか？または、フラワーシンクの負荷分散を行う方法はありますか？

例えばHadoop Application Architectureなどの複数の情報源によれば、複数のシンクがスループットを増加するために、同じチャネルから読み取ることができる： A sink can only fetch data from a single channel, but many sinks can fetch data from that same channel. A sink