一連の関連しているがセグメント化されたデータセットのN番目の百分位数を計算する必要があります。異なるデータセットのパーセンタイルの組み合わせ:これはどのように達成できますか?
組み合わせたデータセットは大きすぎるため、メモリの制限により一度にすべてを計算することはできませんが、断片的な計算を実行するフレームワークはすでに実行されています。どのように各データセットに対して計算を実行し、それらの計算を組み合わせて必要なパーセンタイルを見つけることができますか?データに関する
その他の情報:
データは、多くの場合、外れ値を持っています。
個々のデータセットは、ほぼ同じサイズになる傾向がありますが、常に
個々のデータセットが
私は統合中央値を計算でし同じ分布を共有することが期待されていないではありません、平均、標準偏差を計算し、そこからパーセンタイルを見積もりますか?
あなたが指摘した答えは質問に答えていない – ShikharDua