2016-12-07 16 views
2

Spark Structured Streamingで複数の集計を行いたいとします。Spark Structured Streamingでの複数の集計

このような何か:

  • を(フォルダから)入力ファイルのストリームを読む
  • (一部の変換で)集合1を実行
  • 集約2(および複数の変換)を実行

これを構造化ストリーミングで実行すると、「複数のストリーミング集約がストリーミングデータフレーム/データセットでサポートされていません」というエラーが表示されます。

ストラクチャードストリーミングでこのような複数の集計を行う方法はありますか?

+0

低レベルの 'DStream'抽象化を試しましたか? –

+0

私は、構造化ストリーミング(データセット/データフレーム)を使用したいと考えていました。 DStreamで同様のことが行われているいくつかの例を教えてください。 – Kaptrain

答えて

0

ストラクチャードストリーミングAPIはまだ実験的なので、これはSpark 2.0ではサポートされていません。すべての現在の制限事項のリストについては、hereを参照してください。

+0

私はこれをチェックしています。私はそれが動作すると思う。ありがとう! – Kaptrain

+0

これは、構造化ストリーミングAPIのサポートが不足しているため、今のところ行く方法です。 – Kaptrain

4

これはサポートされていませんが、他の方法もあります。単一の集計を実行し、それをkafkaに保存するように。それをkafkaから読んで、集約を再度適用してください。これは私のために働いています。

関連する問題