Flumeでストラクチャードストリーミング

こんにちは誰も構造化ストリーミングのための新しいAPIをsparkを使用してflumeストリームを読む方法を教えてください。Flumeでストラクチャードストリーミング

例：スパーク2.1のよう

val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()

2016-11-15 user1624578

val flumeStream = FlumeUtils.createStream(streamingContext, [chosen machine's hostname], [chosen port]) for push based approach and 
val flumeStream = FlumeUtils.createPollingStream(streamingContext, [sink machine hostname], [sink port]) for pull-based approach

出典

2016-11-22 06:08:41 Farslan

、スパークは、ファイル、カフカとソケットのソースをサポートしています。 Socket SOURCEはデバッグと開発を目的としており、プロダクション化するべきではありません。これにより、FileとKafkaソースが残ります。

したがって、唯一のオプションはです。a）FLumeからデータを取り出し、S3ファイルにダンプします。 SparkはS3ファイルからデータを取得できます。ファイルソースの仕組みは、フォルダを監視することです。新しいファイルが表示されたら、それをマイクロバッチとして読み込みます。 b）カフカインスタンスにイベントを流します。

出典

2017-02-10 21:41:59

Flumeでストラクチャードストリーミング

答えて

関連する問題