2016-04-17 8 views
-4

私は日の時間差である従属変数の標準偏差を最小限に抑えています。平均はOKですが、偏差はひどいです。独立変数によるクラスタリングを試み、全く異なるクラスタに気づいた。さて、疑問に思う: 1)実際にこの知識をクラスタリングから独立変数にどのように適用できますか?実際には、他のクラスタに依存していることがわかっているので、初期クラスタリング分析には含まれていませんでした。 2)時間差の変数が依存していることを考えれば、最初のクラスタリング分析の結果であるクラスタ番号の変数でクラスタリングを実行する必要がありますか?それが役立つだろう? 3)クラスタリングとは別に、観察グループを何とか分類するのに役立つテクニックはありますか?グループごとに、低い偏差を持つ独立変数の別の平均があります。従属変数のstの偏差を最小限に抑えるための適切な方法(クラスタリングなど)

ご協力いただきありがとうございます。

P.S. StataとSPSSを使用していましたが、コードを共有することができればSASも使用できます。

+1

これはStataのプログラミングに関する質問ではありません。再現可能な例、コード、エラー、予想される出力を示してください。クラスタリングに関する一般的な質問は、[Cross Validated](http://stats.stackexchange.com)に適しています。 – ChrisP

答えて

0

これはすべて間違っているようですね。考慮すべきいくつかの関連する点があります。

分散がグループ全体で一貫していることは、それが低いことよりも重要です。

クラスタリングは(一般的に)クラスタリング変数の類似のパターンに基づいて個人を編成することになります。

一般に、標準偏差のサイズは小さくなりません。

連続変数(IVまたはDVのいずれか)を使用してカテゴリ変数に変換すると、式から分散を取り除き、測定誤差が増えます。ときには、これを行う良い理由があります。しばしばそうでない時があります。

データ駆動型分析(ここで達成しようとしているものなど)は、他のデータセット、サンプル、または他のデータセットに再現または一般化できない結果をもたらす可能性が高いため、人口。