誰かがBigtableIO内でどのようにバンドルが動作しているのか分かっていますか?いずれも、GroupBy
またはCombine
のDoFnを使用するまでは問題ありません。この時点で、パイプラインはPCollection
要素の枠をPaneInfo.NO_FIRING
からPaneInfo{isFirst=true, isLast=true, timing=ON_TIME, index=0, onTimeIndex=0}
に変更し、次にBigtableIO
は次のログINFO o.a.b.sdk.io.gcp.bigtable.BigtableIO - Wrote 1 records
を出力します。何百万のレコードを出力するか、BigtableIO
が各レコードのライターを開いたり閉じたりしているときに、ログにパフォーマンス上の問題が発生していますか?なぜBigtableIOはGroupBy/Combine DoFnの後にレコードを1つずつ書き込むのですか?
1
A
答えて
1
BigtableIOは、バッチRPCで複数のレコードを送信します。しかし、そこには、複数のレコードが "バンドル"で送信されていることが前提です。バンドルのサイズは、手前のステップとDataflowフレームワークの組み合わせによって異なります。あなたが見ている問題はBigtableIO
に直接関係しているようには見えません。
FWIW、hereは、finishBundle()
メソッドで発生するレコードの数を記録するためのコードです。
関連する問題
- 1. pandas dataframeをcsvファイルに1行ずつ書き込む
- 2. Javaの異なるメソッドで1つのファイルに1行ずつ書き込む方法
- 3. 1つのクエリでcassandraに多くのデータを書き込む
- 4. ファイルを1行ずつ書き込むときにRAMが不足する[Python]
- 5. 1つのcsvから別のPythonにデータを書き込む
- 6. 複数のリクエストを1つのCsvにPythonで書き込む
- 7. CSVが各行の後にヘッダーを書き込むのはなぜですか?
- 8. 一度に1つずつTelnetOutputStreamに文字を書き込む方法はありますか?
- 9. 複数のxmlファイルを1つのxmlから書き込む
- 10. Openxlsxパッケージ - 1つのシートに複数のテーブルを書き込む?
- 11. 複数の変数を1つのCSV行に書き込む
- 12. リストの内容を1つのファイルに書き込むR
- 13. 1つの入力に複数の値を書き込む
- 14. 複数のJSONオブジェクトを1つの.jsonファイルに書き込む
- 15. 巨大な量のリクエストを1つのファイルに書き込む方法は?
- 16. ライブテーブルにステージングテーブルのレコードを書き込む
- 17. Sitecoreカスタムログ、1日に1つのファイルのみを書き込む方法は?
- 18. std :: fstreamがファイルに書き込むのはなぜですか?
- 19. ストリームを1つずつ読み込む方法は?
- 20. 外部プログラムが複数のレコードを1つのレコードに書き込むときに、データを正規化するにはどうすればよいですか?
- 21. ファイルに書き込むのは、最後の項目だけで、すべての項目ではなく、なぜ書き込むのですか?
- 22. stderrとstdoutを1つのファイルに書き出すだけでなく、stderrを別のファイルに書き込む
- 23. Flinkでは、DataStreamを1つのファイルに書き込む方法は?
- 24. Python - いつファイルに書き込むのですか
- 25. 70.000レコード/秒で大きなデータボリュームを書き込むのはどうですか?
- 26. 1つのスクリプトでテキストファイルを開き、そのファイルに子スクリプトで書き込むことはできますか?
- 27. 範囲を指定せずにデータ行を1つずつ読み込む
- 28. C - 複数の再帰的な書き込みを1つのポインタに書き込んだ後のメモリアクセスエラー
- 29. 複数のスレッドで1つのファイルに書き込む方法は?
- 30. テーブル内の各カテゴリからレコードを1つずつフェッチする
私はそれも理解しましたが、なぜ1つのレコードだけのバンドルを作るのだろうと思います。最小のバンドルサイズを設定するのは難しいことではないでしょうか?私は別のウィンドウを適用しようとし、特定の量のデータがウィンドウに到着したときにのみトリガーを試みましたが、まだバンドルごとに1つのレコードがあります... –