2017-07-12 9 views
0

私はKafkaからデータを読み込み、データを処理するためにFlinkストリーミングを使用しています。アプリケーションの開始時にKafkaを使用する前に、DataSet APIを使用してファイルを読み取り、いくつかの基準に基づいてファイルをソートし、そこからリストを作成する必要があります。その後、カフカからストリーミングで消費され始めます。私は、DataSet APIを使ってファイルからデータを読み込んでソートするロジックを書いています。しかし、プログラムをチューニングしようとすると、決して実行されず、Flinkはすぐにカフカから消費を開始します。 Flinkで最初にデータセットを処理してストリーミングする方法はありますか?同じFlinkジョブでDataSet APIとDataStream APIを使用できますか?

答えて

1

いいえ、DataSetとDataStream APIを混在させることはできません。ただし、両方のプログラムを同じmain()メソッドから開始することはできますが、DataSetプログラムのソート結果をDataStreamプログラムが使用するファイルに書き込む必要があります。

+0

@ Fabian Hueske私は同じmain()メソッドから両方のプログラムを起動しましたが、現在、私がflink Dashboardでジョブを実行しているときに、ストリーミングジョブがデータセットだけをトリガーすることはありませんプログラムは実行され、 。なぜデータセットプログラムの後にストリーミングプログラムがトリガされないのですか?これで私を導くことができます – Dhinesh

+0

@Fabianこの質問で私を助けてください。 https://stackoverflow.com/questions/46282692/match-based-on-some-property-between-two-data-streams-and-collect-all-based-on-m – Kumar

0

DataSet操作用に別のFlink Jobを作成し、ストリーミングジョブが使用しているKafkaに結果をシンクします。

関連する問題