ログ集計のためにHadoopでPOCを実行しようとしています。少なくとも100サイトをホストする複数のIISサーバーがあります。 HDFSにログを継続的にストリーミングし、さらに分析するためにデータを解析してHiveに保存したいと考えています。IISログHadoopへのリアルタイムのストリーミング
1)は、ストリーミングした後)のApache KAFKA正しい選択またはApache水路
2です。これは、Apacheの嵐を使用し、ハイブ
にデータを摂取する方がよい任意の提案を支援し、また、この種の任意の情報ください。問題文のあなたがいずれかを使用することができますあなたがHDFS
にデータを取得するために、両方を組み合わせることができますが、あなたが利用できるオープンソースのデータフロー管理ツールがありますが、このためのコードを記述する必要がありKafka or flume
も、あなたがコードを書く必要はありません
おかげ
返信いただきありがとうございます。 KafkaやFlumeは、IIS Webサーバーで5分程度の遅延でデータが作成されるため、ファイルを転送したり、データを現在のファイルに転送することは可能ですか? – user7139920
はい、それはほぼリアルタイムでストリーミングのようです... –
ソース側https://nifi.apache.org/docs/nifi-docs/components/org.apacheで5分でNiFiのコンポーネントTailFileを使用できます。 nifi.processors.standard.TailFile/index.html –