Google Cloud Dataprocクラスタでスパークジョブ(スパークストリーミングの多く)を実行しています。google-fluentd:クラウドログの重大度を変更するlog_level
私たちは、クラッシュロギングを使用して、スパークジョブによって生成されたすべてのログを収集しています。 現在、多くの "INFO"メッセージが生成されているため、ログボリューム全体のサイズは数TBになります。
google-fluentdの設定を編集して、ログレベルを「INFO」ではなく「ERROR」レベルに制限します。
は、設定を"log_level error"
として設定しようとしましたが、機能しませんでした。 もその# Currently severity is a seperate field from the Cloud Logging log_level.
# Fluentd config to tail the hadoop, hive, and spark message log.
# Currently severity is a seperate field from the Cloud Logging log_level.
<source>
type tail
format multi_format
<pattern>
format /^((?<time>[^ ]* [^ ]*) *(?<severity>[^ ]*) *(?<class>[^ ]*): (?<message>.*))/
/etc/google-fluentd/google-fluentd.conf/etc/google-fluentd/google-fluentd.conf/etc/google-fluentd/google-fluentd.conf time_format %Y-%m-%d %H:%M:%S,%L
</pattern>
<pattern>
format none
</pattern>
path /var/log/hadoop*/*.log,/var/log/hadoop-yarn/userlogs/**/stderr,/var/log/hive/*.log,/var/log/spark/*.log,
pos_file /var/tmp/fluentd.dataproc.hadoop.pos
refresh_interval 2s
read_from_head true
tag raw.tail.*
</source>