10秒間隔で新しいCSVファイルを取得するAWS S3バケットが1つあります。目標はこれらのファイルをHiveに取り込むことです。Apache Flumeを.COMPLETEで取り込みファイルの名前を変更しないように設定する方法
これはApache Flume
を使用して、Spooling Directory
ソースを使用して、着陸ディレクトリの新しいファイルを探し続け、Hiveでそれらを取り込むことです。
S3バケットと着陸ディレクトリのファイルがコピーされ、Flume
接尾辞の末尾に.COMPLETED
という接尾辞が付いているread-only
権限があります。したがって、私たちのケースでは、Flumeは許可の問題のため完成したファイルをマークすることができません。
は今の質問は以下のとおりです。
- 水路が完成 ファイルに接尾辞を追加することができない場合はどうなりますか?それは何か誤りを与えるか、それとも静かに失敗するでしょうか? (私は実際にこれをテストしていますが、既に誰かがこれを試していたら、私は車輪を再発明する必要はありません)
- Flumeはファイルにメッセージをつけることができません
.COMPLETED
? - は、他のBig Dataツール/技術がこのユースケースに適していますか?