hadoopロギング機能？

zookeeperを作業キューとして使用し、個々のコンシューマ/ワーカーに接続する場合は、これらの労働者の活動を記録するための良い分散設定として何をお勧めしますか？いつでもhadoopロギング機能？

1）我々はダウン1つのコンピュータハウジングHadoopクラスタへの可能性：

には、以下のものとします。システムは、必要に応じて自動スケールアップしますが、1台のコンピュータが必要なダウンタイムがあります。

2）私は、ワーカーがいる個々のマシンにアクセスすることなく、すべてのワーカーログにアクセスする必要があります。私がこれらのログの1つを読むときには、マシンが非常にうまく終了し、長く消えてしまうかもしれないということを心に留めておいてください。

3）ログに簡単にアクセスできる必要があります。つまり、cat/grepとtail、またはよりSQL的な方法でアクセスできる必要があります。短時間の出力だけでなく照会もリアルタイムで行う必要があります時間をリアルタイムで表示します。（tail -f /var/log/mylog.1）

ここにあなたの専門家のアイデアを感謝します！

ありがとうございました。

出典

2012-02-09 schone

Flume、chukwaまたはscribeを使用してみましたか？flumeなどのプロセスが、集中サーバーに集約しようとしているログファイルにアクセスできることを確認してください。

水路参照： http://archive.cloudera.com/cdh/3/flume/Cookbook/

chukwa： http://incubator.apache.org/chukwa/docs/r0.4.0/admin.html

スクライブ： https://github.com/facebook/scribe/wiki/_pages

はそれが役に立てば幸い。

出典

2012-07-12 18:16:27

ログコレクタはWebHDFSプラグインをリリースしました。このプラグインにより、ユーザは即座にデータをHDFSにストリームすることができます。管理が簡単で簡単にインストールできます。もちろん

enter image description here

Fluentd + Hadoop: Instant Big Data Collection

あなたのアプリケーションから直接データをインポートすることができます。 Fluentdに対してログを投稿するJavaの例を以下に示します。 FluentdのJavaライブラリーは、Fluentdデーモンが停止しているときにローカルにバッファリングするのに適しています。これにより、データが失われる可能性が少なくなります。

Fluentd: Data Import from Java Applications

高可用性構成は、基本的にあなたが集中管理のログ集計システムを持つことが可能にする、も可能です。

Fluentd: High Availability Configuration

出典

2012-11-17 05:08:14

答えて

関連する問題