パンダのデータフレームを相互に排他的なサブセットに分割する

パンダのデータフレームに含まれるデータについて回帰分析を使用しています。 V-foldクロスバリデーションを実行するには、私のデータをVのランダムで相互排他的なサブセットに分割する必要があります。パンダのデータフレームを相互に排他的なサブセットに分割する

これまでのところ、データフレームに新しい列V = 10を追加しました。

def Vfold_Subsets(Data,V): 
    subs = Data 
    Data['V'] = V 
    N = Data.shape[0] 
    n = N//V 
    for v in range(1,V): 
     sample = subs.sample(n = n) 
     Data['V'][Data.index.isin(sample.index)] = v 
     subs.drop(sample.index) 
    return Data

このメソッドは機能しますが、私はそれを行うより良い方法があると感じていますか？この方法の欠点は、その後、N = 108場合である

for v in range(1,V+1): 
    print (v,': ',Data['V'][Data['V']==v].count())

リターン：

そして、私は私はこの

ような何かを達成することができれば、それは良いことだと思います残りのすべてのサンプルを最後のビンに入れないでください。

出典

2017-03-17 Wesley Skeeter

グループは偶数っぽいことする必要がありますか？ – piRSquared

私は彼らが絶対に必要であることを知らない、もし私が十分に大きいNを持っていれば、それは問題ではないと思う？しかし、私はそれらが好きです。 –

あなたの関数定義

def Vfold_Subsets(Data, V): 
    return Data.assign(
     V=np.random.permutation(np.arange(len(Data))) % V)

出典

2017-03-17 21:21:19 piRSquared

素晴らしい作品、ありがとう！ –

パンダのデータフレームを相互に排他的なサブセットに分割する

答えて

関連する問題