2012-04-04 4 views
0

完璧な世界では、私はそれを求めて受信するのに時間を費やすことなく、すぐに利用できるデータをたくさん持っています。しかし、GoogleやFacebookのような実際のアプリケーションのコンテキストでは、クエリに時間がかかるデータベースにデータが格納されていて、意味のある結論や関係を引き出すためにそのデータを処理しようとしています。NLP処理はいつ実行されるべきですか?

sqlで大量のデータを数えてソートするという状況では、処理を避けるためにサマリーテーブルにデータを格納し、それらのテーブルをcronで更新するだけです。しかし、統計的分析とnlpは異なるようです。

実際の統計/ nlp/etc分析が発生するのは、データの有効期間のどの時点でですか?

答えて

1

これは通常、データを収集し、何らかのデータベース(SQLまたはNoSQL)を持っていて、それが膨大な量のデータであれば、それをhadoopグリッドにダンプします。それ以外の場合は、通常行うことをしてください。次に、そのデータを分析し結果をあなたに返すジョブがあります。

取得データ - >ストアそれ - >それをダンプ - >それを分析 - >あまりにもうまく動作しません、実際のデータベースにクランチオフライン解析の結果

データを使用してください。

+0

また、分析も保存する必要があります。 – Kristian

+0

確かに、おそらく分析はかなり小さく、統計モデルや新しいデータに適用できるウェイトのベクトルかもしれません。 – nflacco

+0

は、大規模な分析について話していると仮定できます。質問のポイントは、適切な時期が重要な分析を行うことが実際にあるときです。それを飛ばすことなくそれをする方法。 googleの検索 "index"と思う – Kristian

0

NLPとは何を考えているかによって異なります。数十回のツイート/ステータスの更新がどこかに保存されると、それらを読み込んで分析することができます。 NLPが行われている間に唯一のプロダクションサーバーを繰り返し照会することは、おそらくいい考えではありません。データがあればダンプしてそこから作業したいと思うかもしれません。

関連する問題