私はいくつかの確率変数の分布をあらかじめ計算しようとしています。特に、これらのランダム変数は、ゲノム内の場所で評価された関数の結果であるため、それぞれに10^8または10^9の値があります。関数はかなりスムーズなので、私は2/10/100ごとに評価するだけで多くの精度を失うとは思わない?これには関係なく、多数のサンプルが存在することになります。私の計画は、各関数の分位表(おそらく百分位数)を事前計算し、これらの分布統計を毎回計算する必要がないように私のメインプログラムの実行時にこれらを参照することです。効率的な経験的CDF計算/記憶
しかし、私はこれを簡単にどうやって行うことができないのですか?10^9浮動小数点数の配列の格納、ソート、および縮小は実際には実現できませんが、別の方法は考えられませんその分布に関する情報を失う。全体をメモリーに格納する必要のないサンプル分布の分位数を測定する方法はありますか?
あなたはhttp://stats.stackexchange.com /にもっと運があると思います... – katrielalex
いくつの変数がありますか?どのように機能が「スムーズ」ですか?補間にローカル多項式を使用できますか? –
Plotを投稿できますか? –