0

10秒間隔で新しいCSVファイルを取得するAWS S3バケットが1つあります。目標はこれらのファイルをHiveに取り込むことです。Apache Flumeを.COMPLETEで取り込みファイルの名前を変更しないように設定する方法

これはApache Flumeを使用して、Spooling Directoryソースを使用して、着陸ディレクトリの新しいファイルを探し続け、Hiveでそれらを取り込むことです。

S3バケットと着陸ディレクトリのファイルがコピーされ、Flume接尾辞の末尾に.COMPLETEDという接尾辞が付いているread-only権限があります。したがって、私たちのケースでは、Flumeは許可の問題のため完成したファイルをマークすることができません。

は今の質問は以下のとおりです。

  1. 水路が完成 ファイルに接尾辞を追加することができない場合はどうなりますか?それは何か誤りを与えるか、それとも静かに失敗するでしょうか? (私は実際にこれをテストしていますが、既に誰かがこれを試していたら、私は車輪を再発明する必要はありません)
  2. Flumeはファイルにメッセージをつけることができません .COMPLETED
  3. は、他のBig Dataツール/技術がこのユースケースに適していますか?

答えて

1

Flumeスプーリングディレクトリソースには、処理された/読み込まれたログファイルの名前を変更するか、または削除するための書き込み権限が必要です。

'fileSuffix'、 'deletePolicy'の設定を確認してください。

完成したファイルの名前を変更したり削除したりしなかった場合、どのファイルがすでに処理されているか把握できません。

読み取り専用S3バケットから読み込み権限を持つ「ステージング」フォルダに読み込み、このステージングフォルダをフロムのソースとして提供する「スクリプト」を作成することができます。

関連する問題