2016-11-11 7 views
0

https://cloud.google.com/dataflow/model/custom-io-python) は、書き込み処理が複数の労働者と連携していることを説明し、「カスタムソースとシンク(パイソン)」のドキュメント。パイプラインI/Oは、サーバーのローカルストレージを使用する場合iobase.writeのWriterサブクラスがサーバーローカルにレコードを書き込み、Writerプロセスが複数のワーカーで動作する場合、どうすればシリアル化できますか?

は、どのようにカスタムシンクの「finalize_writeは、」労働者のストレージを扱うことができますか?

私は.gzという書き込みをサポートするカスタムシンクを書いています。テキスト出力にはローカルハードディスクを使用する必要があります。

よろしくお願いいたします。

答えて

1

finalize_writeは、データのバンドルは、そのようなGCS上のファイルの名前を変更すると、処理された後に追加の外部アクションを実行するのに便利です。シンクが機能するためには、Writerを介してDataflowパイプラインからデータをエクスポートする必要があります。必要であれば一時的にローカルディスクにデータをバッファリングできますが、データはバンドルの最後を過ぎてそこに残ることはできません。

関連する問題