さまざまなサイズの分布から無作為にサンプリングすると、実行時間は、サンプリングされるデータセットのサイズではなく、サンプリングされるデータセットのサイズにほぼ比例しているようです。例:データセットのランダムサンプリングのスケールがサンプルサイズでないのはなぜですか? (パンダサンプル()の例)
import pandas as pd
import numpy as np
import time as tm
#generate a small and a large dataset
testSeriesSmall = pd.Series(np.random.randn(10000))
testSeriesLarge = pd.Series(np.random.randn(10000000))
sampleSize = 10
tStart = tm.time()
currSample = testSeriesLarge.sample(n=sampleSize).values
print('sample %d from %d values: %.5f s' % (sampleSize, len(testSeriesLarge), (tm.time() - tStart)))
tStart = tm.time()
currSample = testSeriesSmall.sample(n=sampleSize).values
print('sample %d from %d values: %.5f s' % (sampleSize, len(testSeriesSmall), (tm.time() - tStart)))
sampleSize = 1000
tStart = tm.time()
currSample = testSeriesLarge.sample(n=sampleSize).values
print('sample %d from %d values: %.5f s' % (sampleSize, len(testSeriesLarge), (tm.time() - tStart)))
tStart = tm.time()
currSample = testSeriesSmall.sample(n=sampleSize).values
print('sample %d from %d values: %.5f s' % (sampleSize, len(testSeriesSmall), (tm.time() - tStart)))
出力は次のようになります。
sample 10 from 10000 values: 0.00126 s
sample 10 from 10000000 values: 1.10504 s
sample 1000 from 10000 values: 0.00122 s
sample 1000 from 10000000 values: 1.15000 s
これは直感に反するようです。たぶん私は密集していますが、問題はランダムなインデックスのリストを生成するのと同じように思えますし、問題のサンプリングされた値の数とデータセットのサイズがそれほど重要ではないことが予想されます。私は別の実装を試してみましたが、2つの同様の結果がありましたが、根本的な問題がなくなっているように感じ始めています。
私の質問は2つあります:(1)これはファンダの基本的な問題か実施の奇跡ですか? (2)このように大規模なデータセットから無作為にサンプルを採取することができるかなり高速なアプローチがありますか?あなたのケースで
ああ、そうです。私は、 "同等"がセマンティクスを説明するだけであると思っていましたが、明らかに実際にはそのように実装されています(https://github.com/numpy/numpy/blob/3e297ba7e47c949469744ac67cf296b4315ceea9/numpy/random/mtrand/mtrand.pyx #L1174)。それは地獄のように遅いです。 – user2357112