2017-03-25 8 views
0

私はSparkを学び、Sparkから計算結果を得て、それをユーザーに返す単純なサービスを構築しようとしています。ストリーミングデータを処理する方法については、SparkのWebサイトに多くの良い例があります。しかし、私はそれから計算結果を取得する方法に関するドキュメントを見つけることができません。Sparkから計算結果を得るには?

私はカフカのキューとスパークジョブlikeを持っています。結果をエンドユーザーに表示するにはどうすればよいですか?理想的には、私は/words-count HTTPエンドポイントを提供する安らかなサービスをしたいと思います。しかし、Sparkをそのサービスから呼び出す方法は明確ではありません。

ドキュメントまたはコード例への参照はすべて参考になります。ありがとうございました。

答えて

1

一般的に、利用可能になったユーザーに結果を常にプッシュしたい場合は、ストリーミングAPIを使用することをお勧めします。 foreachRDDがあり、そこにRDDをとり、その結果を公開する機能を提供することができます。この関数は、ストリームがその結果を更新するたびに呼び出されます。

dstream.foreachRDD(rdd => publish(rdd))