2012-02-09 2 views
2

zookeeperを作業キューとして使用し、個々のコンシューマ/ワーカーに接続する場合は、これらの労働者の活動を記録するための良い分散設定として何をお勧めしますか?いつでもhadoopロギング機能?

1)我々はダウン1つのコンピュータハウジングHadoopクラスタへの可能性:

には、以下のものとします。システムは、必要に応じて自動スケールアップしますが、1台のコンピュータが必要なダウンタイムがあります。

2)私は、ワーカーがいる個々のマシンにアクセスすることなく、すべてのワーカーログにアクセスする必要があります。私がこれらのログの1つを読むときには、マシンが非常にうまく終了し、長く消えてしまうかもしれないということを心に留めておいてください。

3)ログに簡単にアクセスできる必要があります。つまり、cat/grepとtail、またはよりSQL的な方法でアクセスできる必要があります。短時間の出力だけでなく照会もリアルタイムで行う必要があります時間をリアルタイムで表示します。 (tail -f /var/log/mylog.1)

ここにあなたの専門家のアイデアを感謝します!

ありがとうございました。

答えて

0

ログコレクタはWebHDFSプラグインをリリースしました。このプラグインにより、ユーザは即座にデータをHDFSにストリームすることができます。管理が簡単で簡単にインストールできます。もちろん

enter image description here

あなたのアプリケーションから直接データをインポートすることができます。 Fluentdに対してログを投稿するJavaの例を以下に示します。 FluentdのJavaライブラリーは、Fluentdデーモンが停止しているときにローカルにバッファリングするのに適しています。これにより、データが失われる可能性が少なくなります。

高可用性構成は、基本的にあなたが集中管理のログ集計システムを持つことが可能にする、も可能です。

関連する問題