2016-03-22 10 views
0

私は、複数の業界に大量のデータを保存するプロジェクトに取り組んでいます。不明なレポートを処理できるデータベースを設計するにはどうすればよいですか?

私はデータベーススキーマの設計を担当しています。

データベーススキーマを柔軟にして、データの複雑なレポートを処理できるようにする必要があります。

例えば、

what products are trending in industry x 
what other companies have a similar product to my company 
how is my company website different to x company website 

は、レポートのすべての種類があるかもしれません。今はすべてが曖昧です。しかし、私は報告書が速くなければならないことを確かに知っています。

私の最善の道は、できるだけ多くの関連テーブルを作ることです。たとえば、製品テーブルが業界テーブルにリンクされている場合、他のテーブルの結合を経ずにデータに接続しようとすることなく、特定の業界のすべての製品を取得するのは比較的簡単です。

これは気になりません。スキーマは非常に大きく複雑です。

私がやっていることが正しいのか、この問題の解決策が他にあるか教えてください。おそらく、解決策は、データ・サイエンティストまたはDBAを雇うことです。その仕事は、プログラマーにそれをさせるのではなく、このようなことをすることです。

ありがとうございます。

答えて

1

私は、リレーショナル/運用データベースからこれらの種類の回答を得ることは非常に難しく、クエリは本当に遅くなると思います。 私が考えるベスト・アプローチは、リレーショナル・データベースよりも照会が容易なデータをフラット化する多次元データ構造(つまりデータ・ウェアハウス)を作成することです。トレンド分析の履歴データもあります。
複雑な統計分析または予測分析が必要な場合、データ科学者はデータウェアハウスをソースとして使用できます。

1

上記のAmitの答えに加えて、問題は、トランザクションデータベースから必要なものが、操作上の目的でファクトを大きく正規化したものであるということです。分析面では、効果的にタグ付けされたファクトを必要とします。

つまり、好きなものは、必要な関連付けを追加できる一連のスタースキーマです。

関連する問題