2017-05-31 11 views
0

新しい要件が追加されました。 GCSバケットには約130以上のファイルがあり、これらのファイルを毎日BigQueryの異なるテーブルに読み込む必要があります。Python APIを使用してBigQueryにデータをロードすると、bq load

調査した後、2つのオプションが見つかりました。

1)が最適な選択肢のBigQuery

にデータをロードするためのPython APIを作成し、負荷(シェルスクリプト/ Pythonのスクリプト) 2)に "BQロード" コマンドを使用します。 Python APIを使用する場合、APPENGINEを使用してスケジュールする必要があります。

これ以外のオプションはありますか?

ありがとう、

答えて

1

ただし、実行すると、読み込みジョブが作成されます。だから、BigQuery側からは、どのオプションを選択するかは重要ではありません。

  • App Engine standard environment cron service

    は限りスケジューリングが行くように、あなたは、Googleのクラウドプラットフォーム上のいくつかのオプションを持っています。

    • これを使用してPub/Sub経由でタスクを確実にスケジュールするには、this exampleを参照してください。
  • Compute Engineインスタンスのオペレーティングシステムのcronまたはsystemdタイマー。
  • cron job on a Kubernetes clusterContainer Engineを使用。
関連する問題