2TBテーブルをRDSインスタンスからS3またはHiveにエクスポートする方法は？

RDSインスタンス（MySQL 5.7）からS3（csvファイル）またはHiveにテーブル全体を移行しようとしています。2TBテーブルをRDSインスタンスからS3またはHiveにエクスポートする方法は？

表には合計2TBのデータがあります。また、zipファイルを格納するBLOB列（通常は100KBですが、5MBに達することがあります）があります。

私はSpark、Sqoop、AWS DMSでいくつかのテストを行いましたが、すべてに問題がありました。これらのツールを使用してRDSからデータをエクスポートした経験はありません。本当に助けていただきありがとうございます。

このタスクで最も推奨されるのはどれですか？そして、より効率的な戦略は何ですか？

AWSパイプラインを使用してRDSデータをS3にコピーできます。ここにはexampleがあります。

csv形式のS3にダンプした後は、sparkを使用してデータを読み込み、ハイブテーブルとして登録するのは簡単です。

val df = spark.read.csv("s3://...") 
df.saveAsTable("mytable") // saves as hive

2017-10-02 14:01:21

答えて