2016-08-11 13 views
0

ベイク定理を使って分類モデルを保存するためにpickleを使用していますが、5600レコードの分類後に2.1 GBのファイルを保存しました。しかし、私はそのファイルを読み込むときに2分ほどかかりますが、テキストを分類するのに5.5分かかります。私はそれをロードし、分類するために次のコードを使用しています。textblob naive bayesクラシファイアのトピック分類時間を短縮する方法

classifierPickle = pickle.load(open("classifier.pickle", "rb")) 
    classifierPickle.classify("want to go some beatifull work place")) 

ピクルオブジェクトをロードするための第1行と、テキストを分類するための第2行は、どのトピック(カテゴリ)となるかを示す。私はモデルを保存するために次のコードを使用しています。

file = open('C:/burberry_model/classifier.pickle','wb') 
pickle.dump(object,file,-1) 

私がtextblob.Environmentから使用しているすべてのものは、Windows、28GB RAM、4つのコアCPUです。もし誰かがこの問題を解決できるならば、それは完全に助けになるでしょう。

答えて

0

textblobはNLTKの上に構築されているので、スピードを大幅に落とす純粋なPythonの実装です。第二に、Pickleファイルが2.1GBなので、それははるかに拡大し、RAMに直接保存され、時間がさらに増えます。

また、Windowsを使用しているため、Pythonの速度は比較的遅いです。スピードがあなたの主な関心事であれば、textblob/NLTKのフィーチャセレクタとベクトルコンストラクタを使い、C-Bindingsを持つscikit-learn NB Classifierを使うと便利です。

関連する問題