このクエリは、「レンチを使用する必要がありますか?」という質問のようなものです。 Greenplumは多くの異なるものに使用できるので、答えは主観的になるでしょう。しかし、私はあなたが尋ねたので、私の意見を述べるために最善を尽くします。
既存のデータパイプラインに影響するgpdbレイヤー。ここでデータパイプラインは外部システム - > talend - > hadoop-hawq - > tableauです。データパイプラインを外部システム - > talend - > hadoop-hawq - > greenplum - > tableauとして変換したいと考えています。
データパイプラインを行う方法はたくさんありますが、最初にHadoopにデータをロードし、それをGreenplumにロードするという目的は非常に一般的であり、うまく機能します。 Greenplumの外部テーブルを使用して、HDFSから直接パラレルにデータを読み取ることができます。したがって、HadoopクラスタからGreenplumへのデータ移動は、単純なINSERT文で実現できます。 Greenplumは、物理的または論理的にSQL変換およびレポートに支援するために起こっているか
INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file;
。
1つのアイソレーション。 Greenplum用の別のクラスタを使用すると、Hadoopアクティビティのパフォーマンスに影響を与えずに分析を顧客に提供することができます。この隔離によって、追加のセキュリティレイヤーを提供することもできます。 HAWQは、我々はサポートされているフォーマットは、アブロ、寄木細工などのようにgpdbに
を書くために良いですしているformat.Whatプレーンテキストでファイルを格納している間、私はGPDB内のファイルを格納するために選ぶ必要がありますファイル形式
提案したデータパイプラインを使用して、パフォーマンスに基づいてGreenplumでデータフォーマットの決定を行います。大規模なテーブルの場合は、テーブルをパーティション化し、quicklz圧縮で列を指向させるようにします。小さなテーブルの場合は、最適化を追加するだけです。更新や削除が多いテーブルの場合は、デフォルトのヒープにしておいてください。
がどのようにGPDBから処理されたデータファイルです。そのため、レポート作成や予測分析も迅速になります。
GreenplumははMPPデータベースです。ストレージは「無共有」です。つまり、各ノードには他のノードが持たない一意のデータ(高可用性のためのミラーリングを除く)があります。セグメントのデータは常にローカルディスクに格納されます。 HAWQで
、それはHDFSを使用しているため、セグメントのデータがローカルである必要はありません。 1日目、HDFSにデータを書き込んだとき、それはローカルでしたが、失敗したノード、拡張などの後に、HAWQは他のノードからデータをフェッチする必要があります。これにより、Hadoopの仕組みにより、Greenplumの性能がHAWQよりも予測可能になります。
データをHAWQからGreenplumにプッシュする方法はありますか?私たちは、 です。私たちのレポートのユースケースを HAWQ INTO Greenplumにシフトする方法をお探しです。
プッシュ、何が、はい、引っ張りません。上で述べたように、Greenplumに外部テーブルを作成してHDFSからデータをSELECTすることができます。 Greenplumで書き込み可能な外部テーブルを作成して、データをHDFSにプッシュすることもできます。
情報ありがとうございました。理解しやすいです。そう、私たちはgpdbのアップグレードを決めました。 – NEO
を4.3.4.1から4.3.8.Xにアップグレードします。それのために行く必要がありますか?または何か4.3.Xは大丈夫です。あなたはそれについての提案が必要です。 – NEO
4.3.5は重要なアップグレードであり、インストールした場合はgptextなどの拡張もアップグレードする必要があります。アップグレードする前に、まずデータベースをgpcrondumpでバックアップしてください。しかし、最新バージョンにアップグレードすると、新しい機能と安定性がもたらされるので、常に最新バージョンにアップグレードすることをおすすめします。 –