2017-03-28 7 views
0

私は、2つの列に基づいてproc surveyselectで一意のサンプルデータセットを作成しようとしています。 私はperson_idとhousehold_idの単純なテーブルを持っています。この場合、person_idはサンプルを作成するための主な入力である「主キー」です。しかし、私はサンプルとベースのデータの間にhousehold_idを混ぜないようにする必要があります。 したがって、household_id = 123がサンプルであれば、(別のperson_idの場合でも)ベースデータには表示されず、その逆もあります。sas proc surveyselect with contstraint on column

便利なアイデアはありますか?すべての私のソリューションの前処理または後処理がサンプルサイズに影響します。

ありがとうございます! E.

答えて

1

見つけたとおり、proc surveyselectではこのような制約がありません。それに対応したい場合は、サンプリングにわずかな歪みを許容する必要があります。基本データセットにも存在しているサンプルデータセット内のすべてのhousehold_idsを識別し、ランダムなサンプル

  • を作成する

    • 使用のproc surveyselectを:私の提案は、次のように操作することであろう。これらのN個があるとしましょう。
    • 元のサンプル内のすべてのhousehold_idsを除外して、ベースデータセットからサイズNの別のサンプルを作成します。
    • 一致するhousehold_id行をすべて元のデータセットに戻し、元のサンプルから削除し、新しいサンプルを元のサンプルに追加します。
  • +0

    こんにちは、これは今やっていることです。私は箱の解決策を見つけることを望んだ:)ありがとうuser667489 – Ele