2017-05-04 27 views
0

私は全く新しいデータ分析を始めました。私は新しいプロジェクトを開始するためにいくつかのアドバイスが必要です。 自動支払機の一部であるさまざまな周辺機器のログファイルがあります。ログファイルは毎日作成され、各ファイルは10k〜100k行の間にあります。さらに、ログファイルの構造は多少なりとも異なります(Timestamp、Category、ProcID、ThreadID、Method、Message)。私がする必要がどのような
は次のとおりです。ログ解析とデータ集約

  1. はどの

取引の流れを再構築するためにさまざまな周辺機器のログから各周辺

  • 集計情報についての情報を抽出するために、各ファイルにいくつかのクエリを適用しますこのタスクを実行するための最良のテクニック/フレームワークですか?
    ログ解析にApache Luceneを使い始めましたが、何かアドバイスをいただければ幸いです。
    現時点で私はプログラミング言語についての制約はありませんが、Java、C#またはPythonが望ましいはずです。

    ありがとうございます!

  • 答えて

    1

    ここにデータベースアプローチがあります。 SQLに精通している必要があります。

    1. pythonスクリプトを使用して、データベースにインポートできる形式に必要な情報を抽出します。
    2. PostgreSQLやApache SPARKなどのデータベースにエクスポートします。各周辺機器はテーブルです。もちろん、一致させる必要があるペリフェラルの数が多い場合は、1対1の一致したペリフェラルエントリを1つのテーブルに入れて、テーブルを少し最適化する必要があります。
    3. 次に、JOIN操作を実行して、対応するペリフェラルと一致させます。
    4. 一致する周辺情報に基づいてトランザクションフローを作成/再構築します。

    このアプローチの利点は簡単に拡張可能です。また、ほとんどのデータ科学ツールはデータベースをサポートしています。さまざまなツールを使用してデータを検査/視覚化することができます。それはまた、あなたが必要とするより複雑な操作のためにあなたを設定します。

    +0

    ご回答ありがとうございます、私はあなたの提案を検討します –