-1

gcsバケットのファイルから読み込み、bigqueryテーブルに書き込むDataflowパイプラインをセットアップしたいと思います。注意すべき点は、gcsファイルから読み込まれる行の内容に基づいて書き込む表を決定する必要があることです。行内容に基づいて動的に生成されたテーブル名を指定する

私の質問は、これは可能ですか?はいの場合、誰かに私にこれを達成するためのヒントを教えてもらえますか?

また、読み取りが行われるgcsファイルは動的です。私は任意のファイルが追加/削除されるたびにappengineの登録されたエンドポイントを呼び出し、ファイルの詳細を追加/削除したオブジェクト変更通知サービスを使用しています。これは、内容がbigqueryにストリームされなければならないファイルです。

データフローパイプラインをappengineと統合することは可能ですか?

最後に、このセットアップ全体が最善の方法ですか?

おかげで...あなたの最初の質問で

+1

新しいソリューションが利用可能になりました。私は私の答えを編集しました。 – jkff

+0

@jkffそれは素晴らしいです。数ヶ月からこれを待っていた。お知らせしてくれてありがとう:) –

答えて

1

を:あなたの2番目の質問でWriting different values to different BigQuery tables in Apache Beam

を参照してください。それを達成するための1つの方法は、あなたのAppEngineアプリがクラウドのpubsubにすべての変更通知を発行持つようになる、としていますpubsubのトピックを見て、BigQueryに書き込む、常に実行されているストリーミングDataflowパイプライン。あなたの3番目の質問で

:あなたの最初のユースケースのためのはい、GCS上のデータ表現が固定されていると仮定すると、残りは私には合理的な摂取アーキテクチャのように思える:)

+0

ありがとう@説明のために@jkff :) –

関連する問題