2011-11-15 9 views
4

一連の関連しているがセグメント化されたデータセットのN番目の百分位数を計算する必要があります。異なるデータセットのパーセンタイルの組み合わせ:これはどのように達成できますか?

組み合わせたデータセットは大きすぎるため、メモリの制限により一度にすべてを計算することはできませんが、断片的な計算を実行するフレームワークはすでに実行されています。どのように各データセットに対して計算を実行し、それらの計算を組み合わせて必要なパーセンタイルを見つけることができますか?データに関する

その他の情報:

  • データは、多くの場合、外れ値を持っています。

  • 個々のデータセットは、ほぼ同じサイズになる傾向がありますが、常に

  • 個々のデータセットが

私は統合中央値を計算でし同じ分布を共有することが期待されていないではありません、平均、標準偏差を計算し、そこからパーセンタイルを見積もりますか?

+0

あなたが指摘した答えは質問に答えていない – ShikharDua

答えて

0

平均値、平均値、標準偏差のみでは、特に外れ値がある場合は十分ではありません。

正確なパーセンタイルが必要な場合、これは並列計算の問題です。 parallel mode of the C++ STL libraryのようなこの方向で行われている作業もあります。

Cross Validatedにおおよそのパーセンタイルが必要な場合は、サブサンプリングの方法を示唆する質問(Estimation of quantile given quantiles of subset)があります。各データセットからいくつかのデータポイント(すべてではない)を取得し、単一のマシンに収まるように十分小さい新しい結合データセットを作成し、そのパーセンタイルを計算します。

各セグメントのパーセンタイルがすでに利用可能である場合、もう1つのおおよそのアプローチは、各セグメントのcumulative distribution functionをパーセンタイルからステップ関数として近似することです。次に、全体分布は、セグメント分布のfinite mixtureであり、累積分布関数は、セグメント累積分布関数の加重和関数である。分位関数(すなわちパーセンタイル)は、累積分布関数を数値的に反転させることによって計算することができる。

関連する問題