'{
"uri": "http://foo.com/bar/index.html",
"metric1": 74,
"metric2": 123,
"conntime": "2011-12-30T13:43:34",
"city": "CAMBRIDGE",
"state": "MA",
"ua": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2",
"plat": "Win32"
}'
文字列はURI、番号が含まれていますジオ/ブラウザ/プラットフォームのデータが続きます。あなたが想像している通り、URI/UA/Plats/Cities/Statesの個数はより少なくなりますが、各メトリックの値は大きく異なります。
私はthisとthis、読みましたが、私のクエリは、複数のカウンタのために良いフィットしていないようです以下、次のようになります。中央値「metric1」はそれぞれ何のためにあるのか
- ( 'ua'、 'plat'、 'state'、 'city')?
- 「conntime」の「metric2」の95パーセンタイルは「2011-12-30T13:43:34」ですか?
私のデータをカウンタとして非正規化することはできますか(そして賢明ですか)?それとも、データをモデル化する良い方法がありますか?
ありがとうございます!
これは意味があります。私が正しく理解していれば、中央値を計算すると、データはおおよそ次のようになります: 'CF [" http://foo.com/bar/index.html "。" Mozilla/5.0(Windows NT 6.1)AppleWebKit/535.2 (KHTML、Geckoのように)Chrome/15.0.874.121 Safari/535.2 ".metric1_74 [" http://foo.com/bar/index.html ".metric1] ++;'または、ほとんどのデータ分析はオフラインで(例えば1時間に1回)実行すると、生のJSONと* only * Map/Reduceを保存する方が良いでしょうか? – septagram