2017-08-18 10 views
0

私はGoogle Storage Bucketに日々ファイルを置いていますが、Google Cloud Dataflowの正しい方法を見つけようとしています。ファイルと昨日のファイル)。私は2つのPCollection間のデルタを見つけるために、データフローAPIのボックス機能を見ていません。デルタを見つけるためのAPIサポートがありますか、またはPTransformを記述する必要がありますか?2つのファイル間のデルタを見つける正しい方法

答えて

1

2つのPCコレクションの違いを見つけるための既存のAPIはありません。各PCollectionは、順序付けられていない、タイムスタンプのイベントの無制限ストリームを表します。 2つの無制限ストリーム間の違いは明確に定義されていません。

これらはファイルからのものであるため、これを行うための何かを書くことができるはずです。たとえば、行の内容をキー入力してから、CoGroupByKeyを実行して、右のファイルではなく左のファイルにあるキーを探し出すことができます。

+0

ありがとう、このスレッドを試してみてください。 – Kishore

関連する問題