2012-03-24 4 views
5

証券取引価格に関する大量の財務データを分析するシステムを構築しています。これの大きな課題は、データがテラバイトの10にあると仮定して、どのような記憶方法をデータに使用するかを決定することです。平均値の取得、標準偏差の計算、価格、時間、ボリュームなどの複数の列でフィルタリングされた合計など、データに関する多くのクエリがあります。結合ステートメントは必須条件ではありませんが、持つのが良いでしょう。財務分析用データストレージ

今は、評価のために、infobrightコミュニティ版、monetdb、greenplumコミュニティ版を探しています。これまでのところは素晴らしいようですが、より高度な機能については、複数のサーバー、挿入/更新ステートメントなどを使用して、これらのエディションの一部では必要なものがあります。

このような状況では、どのようなソリューションを使用しますか。費用効果が高いことが大きなプラスです。私がデータウェアハウスのソリューションを支払う必要がある場合は、それを避けて、可能であればオープンソース/コミュニティ版のルートをとる方がよいでしょう。

+1

実際に(parial)合計、平均、stddevsはフィルタリングされていてもデータマイニングではありません。彼らは平凡な**政治**です。 –

+1

データマイニングは、一連のデータから新しい情報を検出することです。統計は、このプロセスを支援するツールです。私は専門用語の強調が助長的であるとは思わないし、それについて論じるなら何も成し遂げられないだろう。私はあなたの投稿に同意しないと言っていますが、あなたは統計を「統計」と誤解しています。これは不必要な専門性の強調です。私の目標は、このデータベースを使って新しい情報を発見することです。さらに、データウェアハウスソリューションは、データマイニングを念頭に置いて構築されています。したがって、ここではデータマイニングの概念を適用することができます。 – user396404

+0

しかし、私はあなたに同意する "データベース"はおそらくこのポストのためのより良いタグです。 – user396404

答えて

1

Infobrightは、チューニングなし、予測なし、大量のデータをインデックス化します。データのロード時に、1時間あたり80TBのデータをロードできるインスタンスがあり、毎秒12,000を超える挿入が発生しています。

どのように動作しますか?行オリエンテーション対

  1. 列オリエンテーション
  2. データパックプラス20の圧縮平均:1
  3. 知識グリッド - クエリのサブ秒の応答
  4. MySQLのアーキテクチャの上に構築された粒状のエンジンを、

エンタープライズライセンスの検討を検討することをお勧めしますが、コミュニティエディションを評価して、パフォーマンスとデータロードのニーズをテストすることはできます。

免責事項:著者はInfobrightと提携しています。

1

私が言及したデータベースのいずれかがあなたの必要とすることをすると思います。 TBの10分分のデータを扱っている場合、MPPクラスタでエンタープライズライセンスを稼働させることは、おそらく処理時間を短縮するための資金を活用することになります。また、このDWが組織にとって重要な処理を行っている場合は、ライセンスを取得するということはベンダーからのサポートを受けることを意味します。これは多くの企業にとって重要です。 YMMV。

より重要な質問は、あなたのデータ取り込みレートはどのように見えるのでしょうか?金融システムでは、通常の処理を継続しながら、システムに新しいデータをロードし続ける能力が、この式の大きな部分であると考えています。

私は候補者のリストからGreenplumに精通していますが、大量のデータを短時間で読み込むことができます。 GPには、組み込みのSQL関数、MADLib、Rなどを含むDB内でネイティブに実行できる統計機能と解析機能が多数組み込まれています。

関連する問題