2017-10-08 12 views
0

私は、我々はすべての半分に時間をテーブルをハイブするキネシスからのリアルタイムデータを解析するためのJavaフレームワークを持っているユースケースハイブテーブルからスパークストリーミングが可能ですか?

  1. を持っています。
  2. このハイブテーブルにアクセスして、リアルタイムに近い処理を行う必要があります。私はKinesisストリームにアクセスする許可を持っていないので、1時間の遅延はうまくいきます。
  3. 処理がspark(好ましくはpyspark)で実行されると、新しいkinesysストリームを作成してデータをプッシュする必要があります。
  4. 次に、Splunkを使用してリアルタイムで近くに引き出します。

質問:誰かがハイブからPythonを使用してスパークストリーミングを行っていますか?私はPOCと実際の仕事をしなければなりません。

ご協力いただければ幸いです。

ありがとうございます!

+0

私は自動的に生成されたログファイルでストリーミングを行いました。 –

+0

あなたは、ローカルでデータを保存する必要がない場合とまったく同じようにsparkを使用できます。プロセスストリームansはsparkからストリームを送信します。 –

答えて

0

これに先に行くには2通りの方法があります。キネシスからdrectlyメッセージを取得するために

  1. 使用火花ストリーミングが。それはあなたにリアルタイムの何かを与えるでしょう。

  2. ファイルがステージングエリア(ハイブウェアハウスまたはHDFSの場所)にドロップされると、ファイルのスパークストリーミングを使用して処理するためにファイルを取得できます。

あなたに最適なアッチがあることをお知らせください。

関連する問題