2016-10-18 2 views
1

私はHDP 2.4.2を使用しています。データを取り込むために、スパークとHAWQを接続したいと思います。スパーク+ HAWQインテグレーション(HDP 2.4.2)

推奨/正しい方法があれば教えてください。現在、私はHAWQでスパークを接続するためのpostgress jdbcドライバを使用しています。

- テーブルが存在しない場合、DataFrameは自動的にHAWQにテーブルを作成します。

-コードの摂取が遅すぎます。

-間もなく"org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"などのエラーが表示されます。

答えて

1

スパークRDD経由HAWQデータを読み取るため、この例のScalaプロジェクトをご覧ください。https://github.com/kdunn926/sparkHawq

あなたはHAWQとスパークによって生成されたデータを読み出すために望んでいる場合は、あなたの最良のオプションは、スパークからHDFSへの書き込みやPXFを使用するようになりますHAWQでそれを読む。以下のドキュメントを参照してください。http://hdb.docs.pivotal.io/200/hawq/pxf/PivotalExtensionFrameworkPXF.html

+0

ありがとうございます。巨大な火花データセットをHAWQに挿入するためのより良いアプローチは何でしょうか? – nilesh1212

+0

HDFSへのデータの永続性を避けたい場合は、Sparkの結果をKafkaに書き込み、Spring Cloud Dataflowの 'gpfdist'シンクモジュールを使用してHAWQにバッチロードすることをお勧めします。最も簡単な解決策は、圧縮された区切り形式としてSparkデータセットをHDFSに書き込んで、それをPXFと並行して読み込むことです。 –

+0

Kyle私は、Springクラウドのデータフローがこのユースケースの過剰なものになると思います。巨大なsparkデータセットをHAWQに挿入するためにJDBCを使用していますか? – nilesh1212

関連する問題