2017-10-02 3 views
0

RDSインスタンス(MySQL 5.7)からS3(csvファイル)またはHiveにテーブル全体を移行しようとしています。2TBテーブルをRDSインスタンスからS3またはHiveにエクスポートする方法は?

表には合計2TBのデータがあります。また、zipファイルを格納するBLOB列(通常は100KBですが、5MBに達することがあります)があります。

私はSpark、Sqoop、AWS DMSでいくつかのテストを行いましたが、すべてに問題がありました。これらのツールを使用してRDSからデータをエクスポートした経験はありません。本当に助けていただきありがとうございます。

このタスクで最も推奨されるのはどれですか?そして、より効率的な戦略は何ですか?

答えて

0

AWSパイプラインを使用してRDSデータをS3にコピーできます。ここにはexampleがあります。

csv形式のS3にダンプした後は、sparkを使用してデータを読み込み、ハイブテーブルとして登録するのは簡単です。

val df = spark.read.csv("s3://...") 
df.saveAsTable("mytable") // saves as hive 
関連する問題