2016-11-10 7 views
0

ログ集計のためにHadoopでPOCを実行しようとしています。少なくとも100サイトをホストする複数のIISサーバーがあります。 HDFSにログを継続的にストリーミングし、さらに分析するためにデータを解析してHiveに保存したいと考えています。IISログHadoopへのリアルタイムのストリーミング

1)は、ストリーミングした後)のApache KAFKA正しい選択またはApache水路

2です。これは、Apacheの嵐を使用し、ハイブ

にデータを摂取する方がよい任意の提案を支援し、また、この種の任意の情報ください。問題文のあなたがいずれかを使用することができますあなたがHDFSにデータを取得するために、両方を組み合わせることができますが、あなたが利用できるオープンソースのデータフロー管理ツールがありますが、このためのコードを記述する必要がありKafka or flumeも、あなたがコードを書く必要はありません

おかげ

答えて

0

。例えば。 NiFi and Streamsets

別の摂取ツールを使用する必要はありません。これらのデータフローツールを直接使用して、ハイブテーブルにデータを入れることができます。ハイブでテーブルを作成したら、クエリを提供して分析を行うことができます。

これについて他に何か必要があることをお知らせください。

+0

返信いただきありがとうございます。 KafkaやFlumeは、IIS Webサーバーで5分程度の遅延でデータが作成されるため、ファイルを転送したり、データを現在のファイルに転送することは可能ですか? – user7139920

+0

はい、それはほぼリアルタイムでストリーミングのようです... –

+0

ソース側https://nifi.apache.org/docs/nifi-docs/components/org.apacheで5分でNiFiのコンポーネントTailFileを使用できます。 nifi.processors.standard.TailFile/index.html –

関連する問題