詳細については、question listed hereを参照してください。テキスト2Vec分類とキャレット - Naive Bayesの警告メッセージ
caret
パッケージを使用してナイーブなベイ(nb
)モデルをトレーニングするために、text2vec
を使用して構築されたドキュメント用語マトリックスを使用しようとしました。
警告メッセージ:しかし、私はこの警告メッセージが表示されます のevalで(XPR、ENVIR = ENVIR): モデル適合がFold01.Rep1に失敗しました:usekernel = FALSE、FL = 0、中= 1つのエラーを調整NaiveBayes.default(X、Y、usekernel = FALSE、FL = PARAM $ FL、...): ゼロは、変数内の少なくとも1つのクラスに差異:
私はこのメッセージを理解するのに役立ちますし、どのような手順モデルフィッティングが失敗するのを避けるために私は取る必要があります。私はDTMからより疎な用語を削除する必要があると感じましたが、わかりません。
コードモデルを構築するために:ドキュメントタームマトリックス(Text2Vec)を構築するための
control <- trainControl(method="repeatedcv", number=10, repeats=3, savePredictions=TRUE, classProbs=TRUE)
Train_PRDHA_String.df$Result <- ifelse(Train_PRDHA_String.df$Result == 1, "X", "Y")
(warn=1)
(warnings=2)
t4 = Sys.time()
svm_nb <- train(x = as.matrix(dtm_train), y = as.factor(Train_PRDHA_String.df$Result),
method = "nb",
trControl=control,
tuneLength = 5,
metric ="Accuracy")
print(difftime(Sys.time(), t4, units = 'sec'))
コード:
library(text2vec)
library(data.table)
#Define preprocessing function and tokenization fucntion
preproc_func = tolower
token_func = word_tokenizer
#Union both of the Text fields - learn vocab from both fields
union_txt = c(Train_PRDHA_String.df$MAKTX_Keyword, Train_PRDHA_String.df$PH_Level_04_Description_Keyword)
#Create an iterator over tokens with the itoken() function
it_train = itoken(union_txt,
preprocessor = preproc_func,
tokenizer = token_func,
ids = Train_PRDHA_String.df$ID,
progressbar = TRUE)
#Build Vocabulary
vocab = create_vocabulary(it_train)
vocab
#Dimensional Reduction
pruned_vocab = prune_vocabulary(vocab,
term_count_min = 10,
doc_proportion_max = 0.5,
doc_proportion_min = 0.001)
vectorizer = vocab_vectorizer(pruned_vocab)
#Start building a document-term matrix
#vectorizer = vocab_vectorizer(vocab)
#learn vocabulary from Train_PRDHA_String.df$MAKTX_Keyword
it1 = itoken(Train_PRDHA_String.df$MAKTX_Keyword, preproc_func,
token_func, ids = Train_PRDHA_String.df$ID)
dtm_train_1 = create_dtm(it1, vectorizer)
#learn vocabulary from Train_PRDHA_String.df$PH_Level_04_Description_Keyword
it2 = itoken(Train_PRDHA_String.df$PH_Level_04_Description_Keyword, preproc_func,
token_func, ids = Train_PRDHA_String.df$ID)
dtm_train_2 = create_dtm(it2, vectorizer)
#Combine dtm1 & dtm2 into a single matrix
dtm_train = cbind(dtm_train_1, dtm_train_2)
#Normalise
dtm_train = normalize(dtm_train, "l1")
dim(dtm_train)
ありがとうございますtopepo。それがトリックでした。また、次回は再現可能な例を念頭に置いていきます! – UbuntuNewbie