2017-07-07 10 views
2

Sparkの赤色シフトテーブルからデータを読み取るためにデータレンガが提供するspark-redshiftライブラリを使用しています。リンク:https://github.com/databricks/spark-redshiftEMRでspark-redshiftで接続タイムアウト例外が発生しました

注:私の場合、赤方偏移クラスタとEMRクラスタのAWSアカウントは異なります。

スパークローカルモードでスパークレッドシフトを使用して、赤方偏移に接続することができます。しかし、次の例外を除いて、同じコードがEMRで失敗します。java.sql.SQLException:接続の設定エラー:接続がタイムアウトしました。

私のEMRクラスターのEC2セキュリティーグループの受信ルールにRedshiftを追加しようとしましたが、それは役に立たなかった。私はこれをやっている間にSourceをMyIPとして使いました。

答えて

0

私はVPCピアリングを使用して、この解決策を見つけた:http://docs.aws.amazon.com/AmazonVPC/latest/PeeringGuide/Welcome.html

私たちは、ピアリングや他のVPCのIPv4のCIDRからのトラフィックを受け入れるために、個々のVPCのルートテーブルを更新VPCを使用して、赤方偏移とEMRのVPCを接続します。 VPCピアリングはAWSアカウント間でも行うことができます。詳細は上記のリンクを参照してください。

これが完了したら、両方のアカウントでVPCピアリング接続に行き、ピアVPCからのDNS解決を有効にします。このためには、VPCピアリング接続を選択し、トップにあるアクションオプションに進みます。> Edit DNS settingsを選択します。> peer VPCからDNS解決を許可を選択します。

関連する問題