2016-11-10 4 views
4

私はいくつかのモデルをPythonで実行しており、カテゴリにデータサブセットがあります。パンダで未使用のカテゴリーをすばやく削除する方法はありますか?

メモリ使用量と前処理では、すべてのカテゴリ変数がカテゴリデータ型として格納されます。

私の「グループ化」列のカテゴリ変数の各レベルについては、すべてのカテゴリ変数をそのサブセットに存在するものにリセットする必要がある回帰を実行しています。

現在、合計実行時間の約50%を占めている.cat.remove_unused_categories()を使用しています。現時点では、最悪の犯罪者は私のグループ欄であり、他の人はあまり時間を取っていません(ドロップするレベルがあまりないと思います)。ここで

が単純化された例である:私のラップトップ上で

import itertools 
import pandas as pd 
#generate some fake data 
alphabets = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'] 
keywords = [''.join(i) for i in itertools.product(alphabets, repeat = 2)] 
z = pd.DataFrame({'x':keywords}) 

#convert to category datatype 
z.x = z.x.astype('category') 

#groupby 
z = z.groupby('x') 

#loop over groups 
for i in z.groups: 
    x = z.get_group(i) 
    x.x = x.x.cat.remove_unused_categories() 
    #run my fancy model here 

、これは約20秒かかります。この小さな例では、strに変換してからスピードアップのカテゴリに戻すことができますが、私の実際のデータはグループあたり少なくとも300行あります。

このループのスピードアップは可能ですか?私は同じ時刻を取るx.x = x.x.cat.set_categories(i)と、始めたのと同じ数のカテゴリを尋ねるx.x.cat.categories = iを使ってみました。

+1

で正常に動作します。astype({ 'X':」 category '}) 'を削除し、次の行を削除してください:' xx = xxcat.remove_unused_categories() '?それは速いかどうかは面白いです... – MaxU

+0

これは例をスピードアップしますが、私の実際のデータはグループごとに3〜400行あり、その場合は文字列変換が遅くなります。 – jeremycg

答えて

6

z.get_group(i)xに割り当てることに問題があります。 xは、zの部分のコピーになりました。 `X = z.get_group(I).astype({ 'X': 'strの'})あなたのコードは、あなたがこれを試すことができ、この変更

for i in z.groups: 
    x = z.get_group(i).copy() # will no longer be tied to z 
    x.x = x.x.cat.remove_unused_categories() 
+0

しかし、それでも親のDFからすべてのカテゴリがコピーされます - それはずっと速くなると思いますか? – MaxU

+1

私はOPが何をしているのか分かりません!だから私はそれらを信頼して、「ここに私の想像力豊かなモデルを掲載する」必要があります。このコードを実行したところ、SetWithCopyの警告が出力されていたので、辛いです。私はその行を変更し、それはすぐに完了しませんでした。 – piRSquared

+0

今、私はそれを実行しました、これは確かに私の元のコードの問題です。ありがとうございます - データ構造で 'repeat = 2'を3に増やしても問題は残っていますが、これは実行時の0.5から0.05に減少しています。 – jeremycg

関連する問題