2017-07-16 19 views
0

詳細については、question listed hereを参照してください。テキスト2Vec分類とキャレット - Naive Bayesの警告メッセージ

caretパッケージを使用してナイーブなベイ(nb)モデルをトレーニングするために、text2vecを使用して構築されたドキュメント用語マトリックスを使用しようとしました。

警告メッセージ:しかし、私はこの警告メッセージが表示されます のevalで(XPR、ENVIR = ENVIR): モデル適合がFold01.Rep1に失敗しました:usekernel = FALSE、FL = 0、中= 1つのエラーを調整NaiveBayes.default(X、Y、usekernel = FALSE、FL = PARAM $ FL、...): ゼロは、変数内の少なくとも1つのクラスに差異:

私はこのメッセージを理解するのに役立ちますし、どのような手順モデルフィッティングが失敗するのを避けるために私は取る必要があります。私はDTMからより疎な用語を削除する必要があると感じましたが、わかりません。

コードモデルを構築するために:ドキュメントタームマトリックス(Text2Vec)を構築するための

control <- trainControl(method="repeatedcv", number=10, repeats=3, savePredictions=TRUE, classProbs=TRUE) 

    Train_PRDHA_String.df$Result <- ifelse(Train_PRDHA_String.df$Result == 1, "X", "Y") 

    (warn=1) 
    (warnings=2) 

    t4 = Sys.time() 
    svm_nb <- train(x = as.matrix(dtm_train), y = as.factor(Train_PRDHA_String.df$Result), 
        method = "nb", 
        trControl=control, 
        tuneLength = 5, 
        metric ="Accuracy") 
print(difftime(Sys.time(), t4, units = 'sec')) 

コード:

library(text2vec) 
library(data.table) 

#Define preprocessing function and tokenization fucntion 
preproc_func = tolower 
token_func = word_tokenizer 

#Union both of the Text fields - learn vocab from both fields 
union_txt = c(Train_PRDHA_String.df$MAKTX_Keyword, Train_PRDHA_String.df$PH_Level_04_Description_Keyword) 

#Create an iterator over tokens with the itoken() function 
it_train = itoken(union_txt, 
        preprocessor = preproc_func, 
        tokenizer = token_func, 
        ids = Train_PRDHA_String.df$ID, 
        progressbar = TRUE) 

#Build Vocabulary 
vocab = create_vocabulary(it_train) 

vocab 

#Dimensional Reduction 
pruned_vocab = prune_vocabulary(vocab, 
           term_count_min = 10, 
           doc_proportion_max = 0.5, 
           doc_proportion_min = 0.001) 
vectorizer = vocab_vectorizer(pruned_vocab) 

#Start building a document-term matrix 
#vectorizer = vocab_vectorizer(vocab) 

#learn vocabulary from Train_PRDHA_String.df$MAKTX_Keyword 
it1 = itoken(Train_PRDHA_String.df$MAKTX_Keyword, preproc_func, 
      token_func, ids = Train_PRDHA_String.df$ID) 
dtm_train_1 = create_dtm(it1, vectorizer) 

#learn vocabulary from Train_PRDHA_String.df$PH_Level_04_Description_Keyword 
it2 = itoken(Train_PRDHA_String.df$PH_Level_04_Description_Keyword, preproc_func, 
      token_func, ids = Train_PRDHA_String.df$ID) 
dtm_train_2 = create_dtm(it2, vectorizer) 

#Combine dtm1 & dtm2 into a single matrix 
dtm_train = cbind(dtm_train_1, dtm_train_2) 

#Normalise 
dtm_train = normalize(dtm_train, "l1") 

dim(dtm_train) 

答えて

0

これらの変数がリサンプリングされているときには、意味、彼らだけ1つのユニークな値を持つ。 preProc = "zv"を使用して警告を取り除くことができます。これらの質問には、小さくて再現性のある例を得るのに役立ちます。

+0

ありがとうございますtopepo。それがトリックでした。また、次回は再現可能な例を念頭に置いていきます! – UbuntuNewbie

関連する問題