2016-05-17 9 views
2

小売業界のデータを使用するケースがあります。私たちはEDWを作っています。GreenplumデータベースとHAWQはいつ使用しますか?

現在、HAWQからの報告を行っています。しかし、MPPデータベースをHawqからGreenplumに移行したいと考えました。 基本的には、現在のデータパイプラインを変更したいと考えています。 gpdbについて

当社の混乱ポイント:当社の既存のデータパイプラインに影響を与えるとしてどのようにgpdb層

  • 。ここでデータ パイプラインは外部システム - > talend - > hadoop-hawq - > tableauです。我々は 外部のシステムとしてデータパイプラインを変換したい - > talend - > hadoop-hawq - > greenplum - > tableau。
  • どのようにGreenplumが物理的または論理的にSQL の変換とレポート作成に役立つか。我々がサポートされている形式ですformat.Whatプレーンテキストでファイルを格納している
    HAWQはアブロ、寄木細工などのようにgpdbに

  • を書くために良いですしながら、私はGPDB内のファイルを格納するために選ぶ必要がありますファイル形式

  • GPDBからデータファイルをどのように処理しますか?そのため、 も、レポート作成と予測分析を高速化します。

  • データをHAWQからGreenplumにプッシュする方法はありますか?
    私たちの報告用ユースケースを
    HAWQ INTO Greenplumに移行する方法を探しています。

ご迷惑をおかけいたします。

答えて

3

このクエリは、「レンチを使用する必要がありますか?」という質問のようなものです。 Greenplumは多くの異なるものに使用できるので、答えは主観的になるでしょう。しかし、私はあなたが尋ねたので、私の意見を述べるために最善を尽くします。

既存のデータパイプラインに影響するgpdbレイヤー。ここでデータパイプラインは外部システム - > talend - > hadoop-hawq - > tableauです。データパイプラインを外部システム - > talend - > hadoop-hawq - > greenplum - > tableauとして変換したいと考えています。

データパイプラインを行う方法はたくさんありますが、最初にHadoopにデータをロードし、それをGreenplumにロードするという目的は非常に一般的であり、うまく機能します。 Greenplumの外部テーブルを使用して、HDFSから直接パラレルにデータを読み取ることができます。したがって、HadoopクラスタからGreenplumへのデータ移動は、単純なINSERT文で実現できます。 Greenplumは、物理的または論理的にSQL変換およびレポートに支援するために起こっているか

INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file; 

1つのアイソレーション。 Greenplum用の別のクラスタを使用すると、Hadoopアクティビティのパフォーマンスに影響を与えずに分析を顧客に提供することができます。この隔離によって、追加のセキュリティレイヤーを提供することもできます。 HAWQは、我々はサポートされているフォーマットは、アブロ、寄木細工などのようにgpdbに

を書くために良いですしているformat.Whatプレーンテキストでファイルを格納している間、私はGPDB内のファイルを格納するために選ぶ必要がありますファイル形式

提案したデータパイプラインを使用して、パフォーマンスに基づいてGreenplumでデータフォーマットの決定を行います。大規模なテーブルの場合は、テーブルをパーティション化し、quicklz圧縮で列を指向させるようにします。小さなテーブルの場合は、最適化を追加するだけです。更新や削除が多いテーブルの場合は、デフォルトのヒープにしておいてください。

がどのようにGPDBから処理されたデータファイルです。そのため、レポート作成や予測分析も迅速になります。

GreenplumははMPPデータベースです。ストレージは「無共有」です。つまり、各ノードには他のノードが持たない一意のデータ(高可用性のためのミラーリングを除く)があります。セグメントのデータは常にローカルディスクに格納されます。 HAWQで

、それはHDFSを使用しているため、セグメントのデータがローカルである必要はありません。 1日目、HDFSにデータを書き込んだとき、それはローカルでしたが、失敗したノード、拡張などの後に、HAWQは他のノードからデータをフェッチする必要があります。これにより、Hadoopの仕組みにより、Greenplumの性能がHAWQよりも予測可能になります。

データをHAWQからGreenplumにプッシュする方法はありますか?私たちは、 です。私たちのレポートのユースケースを HAWQ INTO Greenplumにシフトする方法をお探しです。

プッシュ、何が、はい、引っ張りません。上で述べたように、Greenplumに外部テーブルを作成してHDFSからデータをSELECTすることができます。 Greenplumで書き込み可能な外部テーブルを作成して、データをHDFSにプッシュすることもできます。

+0

情報ありがとうございました。理解しやすいです。そう、私たちはgpdbのアップグレードを決めました。 – NEO

+0

を4.3.4.1から4.3.8.Xにアップグレードします。それのために行く必要がありますか?または何か4.3.Xは大丈夫です。あなたはそれについての提案が必要です。 – NEO

+0

4.3.5は重要なアップグレードであり、インストールした場合はgptextなどの拡張もアップグレードする必要があります。アップグレードする前に、まずデータベースをgpcrondumpでバックアップしてください。しかし、最新バージョンにアップグレードすると、新しい機能と安定性がもたらされるので、常に最新バージョンにアップグレードすることをおすすめします。 –

関連する問題