0

私はMultinomialNBの作業をしようとしています。私はトレーニングとテストセットでCountVectorizerを使用していますが、もちろん両方のsetzには異なる単語があります。だから私は、なぜエラーが表示されるCountVectorizer MultinomialNB ValueError:ディメンションの不一致

ValueError: dimension mismatch 

が発生しますが、私はそれを修正する方法はわかりません。私はCountVectorizerは右どのように使用できるか

NotFittedError: CountVectorizer - Vocabulary wasn't fitted. 

他のポスト(SciPy and scikit-learn - ValueError: Dimension mismatch)で提案されたようCountVectorizer().transformの代わりCountVectorizer().fit_transformを試みたが、それはちょうど私

を与える ?

from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.cross_validation import train_test_split 
from sklearn.naive_bayes import MultinomialNB 
from sklearn.metrics import classification_report 
import sklearn.feature_extraction 

df = data 
y = df["meal_parent_category"] 
X = df['name_cleaned'] 
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3) 
X_train = CountVectorizer().fit_transform(X_train) 
X_test = CountVectorizer().fit_transform(X_test) 
algo = MultinomialNB() 
algo.fit(X_train,y_train) 
y = algo.predict(X_test) 
print(classification_report(y_test,y_pred)) 

答えて

0

この質問をした後、私はそれを考え出したので、[OK]を:) ここでは、語彙とソリューションや、次のとおりです。

df = train 
y = df["meal_parent_category_cleaned"] 
X = df['name_cleaned'] 
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3) 
vectorizer_train = CountVectorizer() 
X_train = vectorizer_train.fit_transform(X_train) 
vectorizer_test = CountVectorizer(vocabulary=vectorizer_train.vocabulary_) 
X_test = vectorizer_test.transform(X_test) 
algo = MultinomialNB() 
algo.fit(X_train,y_train) 
y_pred = algo.predict(X_test) 
print(classification_report(y_test,y_pred)) 
+0

あなたが '' X_test = vectorizer_train.transform(X_test)を使用している可能性が、新しいものを定義する代わりに。 –

+0

ああ、私はそれを湖。ありがとうございました :) –

関連する問題