20
パンダのドキュメントから、私はその一意のインデックスを収集して、特定の操作を効率的にし、一意でないインデックスが許容されることがあることを時折認めます。パンダのユニークでないインデックスのパフォーマンスへの影響は?
外部からは、一意でないインデックスが何らかの形で利用されるようには見えません。たとえば、次のようix
問合せは、それが全体のデータフレームにスキャンしているように見えるということは十分に遅い
In [23]: import numpy as np
In [24]: import pandas as pd
In [25]: x = np.random.randint(0, 10**7, 10**7)
In [26]: df1 = pd.DataFrame({'x':x})
In [27]: df2 = df1.set_index('x', drop=False)
In [28]: %timeit df2.ix[0]
1 loops, best of 3: 402 ms per loop
In [29]: %timeit df1.ix[0]
10000 loops, best of 3: 123 us per loop
(私は2つのix
クエリが同じものを返さない実現 - それはix
に呼び出すだけ例です
ユニークでないインデックスやソートされたインデックスのバイナリ検索などの高速検索方法を使用する方法はありますか?
強くお勧め回答!感謝します。 – Neerav