私は、1件あたりの観測数が可変の大規模なデータセットを分析しています(1回発生から26回まで...)。事象間の時間を分析する必要があるので、1つの事象のみを有する被験者は非有益である。以前グループ内の数字要素を含むパンダデータフレームの列を作成する(groupby)
、IはStataのコードを使用して(例えば呼ばれる総。)変数を割り当てることになるのStataでの作業中:
idnummerによって、ソート:GEN合計= _N
このようにすべての行/主題を有します変数 'total'と私はすべての科目total = 1を取り除くことができます。私は自分の質問への答えを発見した側の「類似質問」を使用して:
PS
私はAGG機能で、大きさをしようとしているが、私は「NaNに」で終わります...。 ...
DF [ '合計'] = df.groupby( 'idnummer')[ 'シーケンス']。( '最大')を変換