1

私はGoogle Cloud Dataflowを使用してバウンドデータを処理し、BigQueryに出力します。何かを処理して何か(バッチではなくストリームなど)を書きたいと思っています。Cloud Dataflowにストリームのような出力をさせる方法はありますか?

現在のところ、Dataflowはすべてのデータを処理せずにBigQueryに書き込むため、FixedWindowを追加して、Log Timestamp paramをwindow_timestampとして使用しようとしますが、動作しません。

私が知りたい:

  1. は、この問題を処理するための正しい方法をウインドウていますか?
  2. BigQueryIOは実際にバッチを書くのですか、ダッシュボードに表示されないのでしょうか(バックグラウンド書き込みストリーム?)
  3. 私は何か必要なのですか?

私のソースコードはここにある:http://pastie.org/10907947

はどうもありがとうございました!

答えて

3

PipelineOptionsにプロパティをtrueに設定する必要があります。

詳細については、"streaming execution"を参照してください。

さらに、無制限のデータを生成/消費できるソース/シンクを使用する必要があります。 BigQueryはすでに両方のモードで書き込み可能ですが、現在TextIOは境界のあるデータのみを読み取ります。しかし、新しいファイルのディレクトリをスキャンするカスタムの無限のソースを書くことは間違いありません。

関連する問題