タイトルはほぼすべてが集計されています。ウィンドウの幅をどれくらい短くしても、DirectRunnerでジョブを実行するときには、GroupByKey
は決して起動しません。 DataflowRunnerを使用すると、すべてが正常に動作します。Apache Beam GroupByKeyは、DirectRunnerを使用すると決して起動しません。
0
A
答えて
0
GroupByKey
デフォルトでは、入力PCollection
の透かしがそのウィンドウの最後に到達すると、特定のウィンドウが起動します。発砲していない場合は、入力PCollection
の透かしが進んでいないか、または進んでいる可能性がありますが、すべてのデータが最後に破棄されることになります。
理由はPCollection
の製造方法によって異なります。私はあなたがPubSubIO.read()
から直接それを読んでいるかもしれないと思います。 PubSubの透かしを計算するのは難しいです(特にカスタムタイムスタンプ属性を使用している場合)。ダイレクトランナにはこの計算にいくつかの既知の問題があります。 Dataflowランナーは、実行時に透かしをより正確に計算する(ただし、まだ完全にはいない)別の実装に置き換えます。
残念ながら、現在のところ、ダイレクトランナーのウォーターマークの進捗状況を監視するツールはありません。いくつかのログステートメントをPubsubUnboundedSource.PubsubReader.getWatermark()
に追加することでこれをデバッグすることができます。読み込みとGBKの間にParDo
を追加して、受け取ったイベントタイムスタンプ(c.timestamp()
)を出力することもできます。
また、遅れデータを削除しないようにウィンドウ処理方法を設定することもできます。Managing late dataを参照してください。
関連する問題
- 1. Apache Beam「mvn package」はEclipse経由で動作しません
- 2. ApacheはVirtualBoxで起動しません
- 3. apacheは起動しません
- 4. Apache Mampは起動しませんか?
- 5. Apache Beamモデルを使用してツリーをナビゲートする方法
- 6. Apache Beamを使用してログファイルを作成する
- 7. WriteToTextはDirectRunnerで動作しますが、DataflowRunnerのTypeErrorで失敗します
- 8. MariaDBはドッカーイメージ内で決して起動しません
- 9. OnInfoListenerは決して起動しません。 Ever
- 10. Apache Beam Combine関数は何もしません
- 11. 使用しているCLIPSは起動しません。
- 12. BigQueryに書き込むときのGroupByKeyサブタスクの要素の累積Apache beam v2.0
- 13. Apache Beamを使用してデータベースからバルクデータを読み取る
- 14. RabbitMQはlaunchdを使用して起動しません
- 15. 他のプロセスはセマフォを使用して起動しません
- 16. Apache BeamでWRITE_TRUNCATEとWRITE_APPENDを動的にします
- 17. spark-submitを使用して送信するとApache Beamジョブがハングアップする
- 18. JBOSSがスタンドアロンを使用して起動していません
- 19. Apache Beamを使用してGCSにストリーミングデータを書き込む
- 20. perlを使用してwww-データとしてApacheを再起動する
- 21. Apache Beamを使用したデータフローバッチロードのパフォーマンスに関する問題
- 22. MampはApache(Windows 10)を起動しません
- 23. Apacheエアフロースケジューラはスケジュール時にDAGを起動しません。
- 24. ApacheはSnow Leopardでターミナルを使用して起動しませんが、Web共有(システム環境設定)を使用して動作します
- 25. Apacheを起動できません
- 26. Apacheを起動できません
- 27. Apache Beamバージョン2.2.0
- 28. PHP exec()コマンドは、sendkeysを使用してPythonスクリプトを起動しません。
- 29. Apacheを使用しているDockerがループで再起動しています
- 30. Apache Beamでファイルをバイト[]として読み取るには?