flume

0熱

1答えて

コンソールKafkaプロデューサからHadoopファイルシステム（HDFS）への簡単なデータパイプラインを設定しようとしています。私は64ビットUbuntu仮想マシンに取り組んでおり、HadoopとKafkaの両方に別々のユーザーを作成しています。 Kafkaで生産された入力を消費者コンソールで消費し、HDFSが稼働しているようです。ここで、Flumeを使用して入力をHDFSにパイプしたいとしま

0熱

1答えて

apache flumeを使用してtxtファイルからログを読み取る方法

flumeを使用して継続的に成長する.txtファイルを読み取る際に問題があります。 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 などを使ってネットから何かを読むことができることを知っていますが、テキストファイルではどうしますか？ netcatの代わりに何を渡すべき

0熱

1答えて

Flumeを使用したKafkaメッセージで予期しない文字が発生しました

Flume & Kafkaを使用してCSVファイルを消費し、FlumeインターセプタでJSONのイベントを変換し、Kafkaでプッシュすることで、私はKafkaに送信される前にメッセージを記録していますが、通常の有効なJSONです。しかし、カフカから同じメッセージを消費すると、シリアル化しようとするとエラーが発生し、有効なJSONではないと言っています。例えば：は確かに私は私のメッセージの先

0熱

1答えて

Apacheの水路・カフカシンクプロデューサー重複メッセージ

、kafkaブローカーが複数回失敗し、重複したメッセージを生成する（すべての50のレコードが同じである）が、producer.sinks.r.request.required.acks = 1に関する設定、kafkaドキュメント「これまでクォータオプションは最も遅い待ち時間を提供しますが、耐久性が最も弱い（一部のデータはサーバが故障したときに失われます） "、重複データを生成することはできませんか

0熱

1答えて

Apache flumeとApache stormの違いは何ですか？

Apache flumeとApache stormの違いは何ですか？ストームを使用してログデータをHadoopクラスタに取り込むことは可能ですか？両方ともストリーミングデータに使用されているため、flormの代わりにストームを使用できますか？

1熱

2答えて

ソースを指定せずにFlumeのカフカチャンネルを使用する方法

私は既存のカフカのトピックとそこから読み取り、HDFSに書き込むflumeエージェントを持っています。私はflumeエージェントを再構成して、既存のセットアップから離れるようにしたい。カフカチャンネルを使用するために、カフカソース、HDFSシンクへのファイルチャンネル。これは、カフカチャンネルとHDFSシンク（水蒸気源なし）のみを使用してこれを達成することができると読んでいます（スティックの端が

0熱

1答えて

クラスoracle.jdbc.OracleDriverをapache-flumeにロードできません

私はflume-ng-sql-sourceをApache Flumeと連携させるために、Oracle DBをKafkaにストリームすることができます。次バージョン水路1.8.0、水路-NG-SQLソースを使用して、ここで基本的なチュートリアルhttps://www.toadworld.com/platforms/oracle/w/wiki/11524.streaming-oracle-data

0熱

1答えて

Apache Flume + Hdfsシンク

HDFSシンク用の区切り文字を追加できますか？ファイルはいつ書き込まれますか？レコードセパレータを追加するにはどうしたらいいですか？続きが設定されている： - tier1.sinks.hdfssink.type = hdfs tier1.sinks.hdfssink.channel = memory tier1.sinks.hdfssink.hdfs.path=tmp/kafka/%{to

0熱

1答えて

Flumeは、Twitterのストリームのキーワードを受け付けていません

ここでは、このチュートリアルを使用してHadoop新生児を紹介します：https://acadgild.com/blog/streaming-twitter-data-using-flume/ツイートをキャプチャします。それは、ツイートをストリーム TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel Twitter

1熱

1答えて

成長するファイルをApache Kafkaプロデューサとして使用し、新しく追加されたデータのみを読み取る方法

私はkafkaプロデューサとしてファイルを使用しようとしています。ソースファイルは連続的に増加します（たとえば、毎秒20レコード/行）。以下は私の問題に類似の投稿です： How to write a file to Kafka Producer しかし、新しい行がファイルに挿入されるたびに、この場合には、ファイル全体が読み込まれ、カフカのトピックに追加。新しく追加された行だけをトピックに送信したい