誰にでも以下のことを行う最善の方法を教えてください。ランダムにデータのサブセットを選択して、平均レベルがオフになっている場所を確認してください
私は3つの変数(X、Y &Z)と4つのグループ(1,2,4)を持っています。私はSPSSの判別関数解析を使って、グループ化されていない既知のデータのグループメンバーシップを予測し、将来のグループ化されていないデータに使用しています。
理想的には、データのサブセットの数をランダムにサンプリングして、希望する正しい分類率に達するのに必要な観測数を確認できます。
しかし、これは難しいかもしれないと私は理解しています。したがって、私は手段のためにこれを行うことを探しています。
たとえば、変数Xにグループ1の平均値141があるとします。この平均値は、2000年の観測値から計算されている可能性があります。しかし、その平均が、例えば、700回の観測で起こった可能性がある。私はデータの平均レベルを観測/ケースの何点で計算できるようにしたいと考えています。たとえば、おそらく10回の観測から始まり、これをランダムに50〜100回繰り返すと、20回の観測に増加します。
私はこれがモンテカルロテストの一形態であると理解しています。私はSPSS 15,17,18にアクセスでき、優れています。私もminitab 15 & 16とamos17にアクセスし、 "R"をダウンロードしましたが、これらに精通していません。私の経験はSPSSであり、優れています。私はSPSS Modifiedからいくつかの構文を試してきました.http://pages.infinit.net/rlevesqu/Syntax/RandomSampling/Select2CasesFromEachGroup.txtしかし、これはまだかなりの時間をサブセット番号などを入力する私の部分にかかるだろうなど
ご希望の方は、お手数ですが、
読んでいただきありがとうございます。
アンディ
Rはこの種のものを行うのにはかなりいいです。あなたが将来このようなことをもっとしているのを見たら、それを使う方法を学ぶ価値があります。私がRを使っていたのであれば、グループのランダムなサブセットを無作為に取って、サブセットのサイズが小から大になるようにし、それらの平均を計算します。次に、平均/サブセットサイズのグラフにそれらをすべてプロットして、それらが何かに収束しているかどうかを確認します。これの実装は、実際のプログラミング言語では非常に簡単ですが、Excelのようなプログラムでは難しいです。 – Oliver