私たちは銀行のデータウェアハウスに取り組んでおり、ステージングテーブルの標準Kimballモデル、スタースキーマ、およびETLを使用してプロセスを通じてデータを取得しています。データウェアハウスのステージング領域内の構造
Kimballは、データをスタースキーマに入れる準備ができるまで、ステージング領域をインポート、クリーニング、処理などに使用する方法について話します。実際には、これは通常、ソースからのデータをほとんどまたはまったく変更せずにテーブルのセットにアップロードし、オプションで中間スキームに入る準備が整うまでデータを取り込みます。それは単一のエンティティのための多くの仕事であり、ここでの単一の責任はありません。私が働いている
従来のシステムは有する程度に、テーブルの異なるセット間の区別をした:
- アップロードテーブル:生のソース・システム・データ、非修飾
- ステージングテーブル:中間処理、型付きおよびクレンジング
- 倉庫テーブル
あなたは、別のスキーマでこれらを固執して、アーカイブ/バックアップ/セキュリティなどStagingInputがある場合、他の選手の一人が倉庫で働いており、StagingOutput、似たような話のために異なるポリシーを適用することができます。チーム全体として、データウェアハウスとそれ以外の両方の多くの経験があります。
しかし、これにもかかわらず、キングボールとウェブを見ても、ステージングデータベースに構造を与えることについては書かれていないようです。キンボール氏は、私たちすべてがこの深く暗い構造化されていないデータプールとしてステージングを行うようになると信じて、赦されるだろう。
もちろん、ステージング領域に構造を追加したい場合はどうすればいいのかは分かりませんが、それについては何も書かれていないようです。
だから、他の誰もそこにいるのですか?この大規模な構造化されていない混乱を演出しているのか、それとも民族はそれに興味深いデザインをしていますか?
興味のある人は誰も関心のないようですが、あらゆる規模のBIプロジェクトに影響を与えるものです。私はアップロードとステージングの区別が少なくとも私たちにいくつかの構造を与えるだろうと思う。 – NeedHack