私はsklearnを使ってSVMをトレーニングするサンプルプログラムを作った。コードはこちらsklarnはjoblibを使用してモデルをダンプし、複数のファイルをダンプします。どちらが正しいモデルですか?
from sklearn import svm
from sklearn import datasets
from sklearn.externals import joblib
clf = svm.SVC()
iris = datasets.load_iris()
X, y = iris.data, iris.target
clf.fit(X, y)
print(clf.predict(X))
joblib.dump(clf, 'clf.pkl')
私はモデルファイルをダンプすると、この量のファイルが得られます。 :
[ 'clf.pkl'、 'clf.pkl_01.npy'、 'clf.pkl_02.npy'、 'clf.pkl_03.npy'、 'clf.pkl_04.npy'、「clf.pkl_05。 clf.pkl_07.npy '、' clf.pkl_08.npy '、' clf.pkl_09.npy '、' clf.pkl_10.npy '、' clf.pkl_11.npy ' ]
何か問題があった場合は混乱します。それともこれは普通ですか? * .npyファイルとは何ですか?そしてなぜ11があるのですか?
ものが、あなたのデータのための 'numpy'アレイは、ある'バックロードjoblib' '.pkl'はそれらの' np'配列を探して、私はちょうど実現したモデルデータ – EdChum
をバックロードすること私が使用している場合joblib.dump(clf、 'clf.pkl'、compress = 9)私はclf.pklファイルを1つだけ取得します。だから私はあなたがそれらが貧弱な配列であると述べたと仮定します。ロード中に手動でロードするか、自動的にロードしますか? –
私はそれらが自動的にロードされることを期待して、それを試してください – EdChum