2017-04-21 2 views
-1

私はAzureブロブストレージにあるデータの別のカラムから派生カラムを作成しようとしています。私がどこから始めるべきかの指針。私が扱っているデータセットは構造化されたものです。アズールブロブ貯蔵;派生カラム

input dataset= [col_a, col_b, col_c] 
output_dataset= [col_a, col_a^2, col_a*3, col_b] 

答えて

0

データセットのサイズが大きくない場合は、次の手順を試してみてください。

  1. すべてのデータをAzureブロブストレージから読み取ります。
  2. データをデータセットにデシリアライズします。
  3. データセットに新しい列を追加し、この列の値を計算します。
  4. データセットをデシリアライズし、データをAzureブロブストレージに保存し直します。

それ以外の場合は、Azureブロブストレージからデータセットを読み込み、新しい列の値を計算し、行ごとに新しい場所に保存する必要があります。データセットをBLOBにどのように格納したかによって異なります。

+0

ありがとうございました。私は、oracleデータベースの仮想列と似たようなものを探しています。データベースのレコードを移入し、仮想列にはそれ自体が移入されます。私はsparkを使用してデータを取得し、このアクティビティをいくつかの頻度でスケジュールすることを避けたいと考えています。 –

+0

ストレージレベルでこの種のカラムを実装する方法が見つかりませんでした。 Azure Storage Serviceは低価格で提供されるため、私はあなたがいくつかの頻度でデータを取得することを避けたいデータを格納するために物理的な列を追加することをお勧めします。 – Amor