GreenplumデータベースとHAWQはいつ使用しますか？

小売業界のデータを使用するケースがあります。私たちはEDWを作っています。GreenplumデータベースとHAWQはいつ使用しますか？

現在、HAWQからの報告を行っています。しかし、MPPデータベースをHawqからGreenplumに移行したいと考えました。基本的には、現在のデータパイプラインを変更したいと考えています。 gpdbについて

当社の混乱ポイント：当社の既存のデータパイプラインに影響を与えるとしてどのようにgpdb層

。ここでデータパイプラインは外部システム - > talend - > hadoop-hawq - > tableauです。我々は外部のシステムとしてデータパイプラインを変換したい - > talend - > hadoop-hawq - > greenplum - > tableau。
どのようにGreenplumが物理的または論理的にSQL の変換とレポート作成に役立つか。我々がサポートされている形式ですformat.Whatプレーンテキストでファイルを格納している
HAWQはアブロ、寄木細工などのようにgpdbに

GPDBからデータファイルをどのように処理しますか？そのため、も、レポート作成と予測分析を高速化します。
データをHAWQからGreenplumにプッシュする方法はありますか？
私たちの報告用ユースケースを
HAWQ INTO Greenplumに移行する方法を探しています。

ご迷惑をおかけいたします。

出典

2016-05-17 NEO

このクエリは、「レンチを使用する必要がありますか？」という質問のようなものです。 Greenplumは多くの異なるものに使用できるので、答えは主観的になるでしょう。しかし、私はあなたが尋ねたので、私の意見を述べるために最善を尽くします。

既存のデータパイプラインに影響するgpdbレイヤー。ここでデータパイプラインは外部システム - > talend - > hadoop-hawq - > tableauです。データパイプラインを外部システム - > talend - > hadoop-hawq - > greenplum - > tableauとして変換したいと考えています。

データパイプラインを行う方法はたくさんありますが、最初にHadoopにデータをロードし、それをGreenplumにロードするという目的は非常に一般的であり、うまく機能します。 Greenplumの外部テーブルを使用して、HDFSから直接パラレルにデータを読み取ることができます。したがって、HadoopクラスタからGreenplumへのデータ移動は、単純なINSERT文で実現できます。 Greenplumは、物理的または論理的にSQL変換およびレポートに支援するために起こっているか

INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file;

。

1つのアイソレーション。 Greenplum用の別のクラスタを使用すると、Hadoopアクティビティのパフォーマンスに影響を与えずに分析を顧客に提供することができます。この隔離によって、追加のセキュリティレイヤーを提供することもできます。 HAWQは、我々はサポートされているフォーマットは、アブロ、寄木細工などのようにgpdbに

を書くために良いですしているformat.Whatプレーンテキストでファイルを格納している間、私はGPDB内のファイルを格納するために選ぶ必要がありますファイル形式

提案したデータパイプラインを使用して、パフォーマンスに基づいてGreenplumでデータフォーマットの決定を行います。大規模なテーブルの場合は、テーブルをパーティション化し、quicklz圧縮で列を指向させるようにします。小さなテーブルの場合は、最適化を追加するだけです。更新や削除が多いテーブルの場合は、デフォルトのヒープにしておいてください。

がどのようにGPDBから処理されたデータファイルです。そのため、レポート作成や予測分析も迅速になります。

GreenplumははMPPデータベースです。ストレージは「無共有」です。つまり、各ノードには他のノードが持たない一意のデータ（高可用性のためのミラーリングを除く）があります。セグメントのデータは常にローカルディスクに格納されます。 HAWQで

、それはHDFSを使用しているため、セグメントのデータがローカルである必要はありません。 1日目、HDFSにデータを書き込んだとき、それはローカルでしたが、失敗したノード、拡張などの後に、HAWQは他のノードからデータをフェッチする必要があります。これにより、Hadoopの仕組みにより、Greenplumの性能がHAWQよりも予測可能になります。

データをHAWQからGreenplumにプッシュする方法はありますか？私たちは、です。私たちのレポートのユースケースを HAWQ INTO Greenplumにシフトする方法をお探しです。

プッシュ、何が、はい、引っ張りません。上で述べたように、Greenplumに外部テーブルを作成してHDFSからデータをSELECTすることができます。 Greenplumで書き込み可能な外部テーブルを作成して、データをHDFSにプッシュすることもできます。

出典

2016-05-19 14:35:17

情報ありがとうございました。理解しやすいです。そう、私たちはgpdbのアップグレードを決めました。 – NEO

を4.3.4.1から4.3.8.Xにアップグレードします。それのために行く必要がありますか？または何か4.3.Xは大丈夫です。あなたはそれについての提案が必要です。 – NEO

4.3.5は重要なアップグレードであり、インストールした場合はgptextなどの拡張もアップグレードする必要があります。アップグレードする前に、まずデータベースをgpcrondumpでバックアップしてください。しかし、最新バージョンにアップグレードすると、新しい機能と安定性がもたらされるので、常に最新バージョンにアップグレードすることをおすすめします。 –

GreenplumデータベースとHAWQはいつ使用しますか？

答えて

関連する問題