0

私はAzure BLOBストレージにたくさんのファイルを持っており、新しいファイルを絶えず入手しています。 Blobのすべてのデータを最初に取り出し、BigQueryに移動してスクリプトやジョブを実行して、そこにあるすべての新しいデータがBigQueryに送られるようにする方法があるかどうかは疑問でした。Azure BLOBからBigQueryにデータを連続的にパイプする方法はありますか?

+0

[こちら](https://www.stitchdata.com/integrations/microsoft-azure/google-bigquery/)の記事が役立つ可能性があります。 –

+0

ありがとう!私は気付きましたが、長期的な統合のために、(私が転送する必要があるデータ量の)購読は月に500ドルです。私は一貫して無料のソリューションを見つけることを目指しています(ただし、これがもう少し可能であるかどうかを確認します) – Michael

+0

残念ながら、データはデータベースにもありません。これはAzure Blobストレージにありますが、Stitchでは統合ができません。 – Michael

答えて

1

BigQueryはquerying data directly from these external data sourcesのサポートを提供しています:GoogleクラウドBigtableのGoogleのクラウドストレージGoogleドライブ。 Azure BLOBストレージは含みません。 Adam Lydickが言及したように、回避策としてAzure BlobストレージからGoogle Cloud Storage(またはその他のBigQueryサポートの外部データソース)にデータ/ファイルをコピーできます。

GoogleクラウドストレージへのAzureブロブストレージからデータをコピーするには、WebJobs(またはAzure Functions)を実行することができ、およびBLOBが作成または更新されたときBlobTriggerred WebJobは、機能を起動することができますWebJob機能で使用すると、ブロブコンテンツにアクセスすることができますし、書き込み/ Google Cloud Storageにアップロードします。

注::このライブラリをインストールすると、クライアントコードで一般的な操作を行うことができます。Google.Cloud.Storagethis blogは、Azure関数でGoogle.Cloud.Storage sdkを使用する方法を説明しました。

+0

ありがとう、フレッド!これがVMよりも良い方法かもしれないかどうかを見てみよう!それはすべてコストとスピードに依存します:) – Michael

+0

良いアイデア! BigQueryには1日の合計負荷操作に制限があるため、書き込み速度が非常に高い場合は、負荷をバッチアップするか、ストリーム挿入を使用する必要があります。 –

+0

1日に約100個のファイルしかアップロードされないため、制限を超えていないようです。 – Michael

1

私はこれを達成できる(Googleのインフラストラクチャ上で)何も気づいていません。

私は多分に小さなVMを設定したい:

  • は、新しいコンテンツを探して、あなたのAzure BLOBストレージをスキャンします。
  • 新しいコンテンツをGCS(またはローカルディスク)にコピーします。
  • 定期的にLOADジョブをキックオフして、新しいデータをBigQueryに追加します。

あなたの代わりにAzureブロブストレージのGCSを使用した場合は、VMを排除し、ちょうどあなたのGCSバケットに追加された新しいアイテムにトリガーされるクラウド機能を持つことができます(あなたのブロブは、BigQueryのは知っている形であると仮定すると読み方)。私はこれが既存のソリューションの一部であると推測していますが、あなたはそれを変更したくないと思っています。

+0

ありがとう、アダム!私はそれが私と一緒に行く風になると思う。はい、これはBlobにこれらのファイルを常に追加する既存のソリューションの一部です.GCSに直接追加する方法はありません。私はすぐにそれを開始する:) – Michael

関連する問題