私は、30分ごとにハイドープシステムにテキスト区切りファイルが異なるサーバーから(約10)到着するシナリオを持っています。hadoop Pythonで複数のファイルを処理する
各ファイルには約250万レコードあり、同時に到着しない可能性があります。これらのファイルを30分ごとに処理できる方法を探しています。
私の質問は以下のとおりです。
- 異なる時間に到着したファイルを処理するためにどのように?
- データを10個のファイルに集約したい。そのような大きなファイルを別々に結合するか処理する必要がありますか?
私はこのソリューションをPythonで実装したいと思いますが、hadoopのツール/テクニックを使用したソリューションは高く評価されます。
Apache Oozieを調べることができます。それはデータの可用性に基づいてスパークアクション/ジョブを起動する能力を持っています。 – Pushkr