私はHDP 2.4.2を使用しています。データを取り込むために、スパークとHAWQを接続したいと思います。スパーク+ HAWQインテグレーション(HDP 2.4.2)
推奨/正しい方法があれば教えてください。現在、私はHAWQでスパークを接続するためのpostgress jdbcドライバを使用しています。
- テーブルが存在しない場合、DataFrameは自動的にHAWQにテーブルを作成します。
-コードの摂取が遅すぎます。
-間もなく"org.postgresql.util.PSQLException: ERROR: relation "table_name" already exists"
などのエラーが表示されます。
ありがとうございます。巨大な火花データセットをHAWQに挿入するためのより良いアプローチは何でしょうか? – nilesh1212
HDFSへのデータの永続性を避けたい場合は、Sparkの結果をKafkaに書き込み、Spring Cloud Dataflowの 'gpfdist'シンクモジュールを使用してHAWQにバッチロードすることをお勧めします。最も簡単な解決策は、圧縮された区切り形式としてSparkデータセットをHDFSに書き込んで、それをPXFと並行して読み込むことです。 –
Kyle私は、Springクラウドのデータフローがこのユースケースの過剰なものになると思います。巨大なsparkデータセットをHAWQに挿入するためにJDBCを使用していますか? – nilesh1212