2017-12-13 18 views
1

いくつかのソースからの情報を含むAzureにデータウェアハウスを作成します。入力データは別のAPISからのもので、Pythonを使用してそれらにアクセスしたいので、出力はWarehouseに保存する必要があります。このプロセスは毎日更新する必要があります。Pythonを使用してAPIからデータを取得し、Azureデータファクトリを使用してAzure SQLデータウェアハウスにロードします。

私はAzureから多くの文書を読みましたが、このプロセスをどのように設計する必要があるのか​​理解できません。

最初の質問は次のとおりです。異なるAPIからデータを収集するために、Pythonプロセスをどこで作成する必要がありますか? Azureデータファクトリのパイプラインまたは他のどこかで? Azureのデータ工場で

よろしく

答えて

0

、あなたは内蔵のコネクタを使用してソースに接続します:https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-overview

ADFでV2サービスを使用することで、トリガーにパイプラインのスケジュールを設定することができるだろう毎日あなたの希望する時間に。

+0

しかし、使用したいサービスへのコネクタがないので、Pythonスクリプトをコード化して(APIを使用して)データを取得し、それをAzure Data LakeまたはBlobストレージとしてコンテナに保存する必要があると思います。私の質問は、どの場所で私はpythonスクリプトを書くべきですか? – Alex

+0

これらのソースはRESTエンドポイントですか?その場合、HTTPデータソースを使用することができます。https://docs.microsoft.com/en-us/azure/data-factory/connector-http –

0

Pythonを使用すると、APIを使用してデータファクトリパイプラインを作成、設定、スケジュールすることができます。 Pythonコードは実行されません。データファクトリはjsonファイルのみで構成されます。 Pythonライブラリは、あなたが慣れ親しんだ言語でこれらのjsonファイルを作成するのに役立ちます.net、powershell、およびその他すべてのサポートされている言語についても同様です。最終結果は、常にjsonファイルの束です。

あなたのケースの詳細はわかりませんが、一般に、リンクされたサービス、それらのリンクされたサービスを使用するデータセット、および論理的な活動のグループとなるパイプラインを作成する必要がありますデータセット)。

ADFv1を使用している場合は、データセットのプロパティ内でスケジュールを構成することができ、オンプレミスデータを使用しない場合でもゲートウェイは必要ありません。 ADFv2を使用している場合、Azure統合ランタイム(タイプ "管理")が必要で、トリガーを使用してスケジュールを構成できます。

私は少しこれらの概念を明確にすることができたらいいと思います。

乾杯。

0

次の2つのオプションがあります。

  1. あなたのPythonコードを捨て、あなたのデータの移動を記述するためにHTTP Connectorを定義します。おそらく、ETLの「変換」ステップの後続の変換アクティビティが必要になるでしょう。
  2. custom activity run by Azure BatchにPythonコードを埋め込みます。これは、かなり難しくエラーが発生しやすいソリューションです。

あなたの立場では、私はHTTPコネクタを使用します。

関連する問題