2017-06-14 14 views
0

私は、ほとんどのブログがHDFS監査ログを設定する方法について話していることに気付きました。 しかし、各操作/ cmdが表すものを識別するソースはありますか? HDFS監査ログフォーマットと説明

私はHadoopのHowToConfigureのwikiに、次の表を見つけました: HDFS Audit Logs format

しかし、私にはわからないことは、すべての操作では、彼らが何を立ってないということです。

私は操作を読み取り/書き込み操作で分類しようとしていましたが、 "オープン"は読み取り/書き込みの一般的なコマンドであり、残りはDDLやアクセス制御操作のようです。 Clouderaのか、HDPのような異なるHadoopのディストリビューションで、彼らは監査ログを伝えるために独自の方法がありますが、デフォルトの操作は何のためにスタンドだと

私は理解していますか?例えばcreate-mightはファイル作成を意味する/ mkdirs mayはハイブテーブル/ハイブパーティションのmkdirを意味します。

そして最も重要なのは、読み書き操作を区別する方法があることです。

答えて

0

あなたが最も典型的なHadoopのジョブ(豚、ハイブ、MR、SQOOP、スパーク)を考えるならば、あなたはほとんどのデータを上書きしないように作成、書き込みを意味し、オープンを読ん意味します。データを上書きする場合は、実際に削除してから再作成してください。

アクションを識別したサービスを区別するために、追加のソース(Hive監査ログ、YARN RM監査ログ)を参照するか、ユーザーとディレクトリからサービスを推測する必要があります(/ usr/hive/warehouse/*ハイブクエリ)。

上書き/追加参照:

How to force STORE (overwrite) to HDFS in Pig?

How does Sqoop append command will work in hadoop

ハイブの監査ログ:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs