私は行列を作成しようとしています。ここでRコードDocument-Term-Matrixの `RTextTools :: toLower()`テキストの結果を見ることができません
matrix = create_matrix(tweets[,1], toLower = TRUE, language="english",
removeStopwords=FALSE, removeNumbers=TRUE,
stemWords=TRUE)
::私は、マトリックス中の大文字を持つ単語があることを発言
library(RTextTools)
library(e1071)
pos_tweets = rbind(
c('j AIME la voiture', 'positive'),
c('cette machine est performante', 'positive'),
c('je me sens en bonne forme ce matin', 'positive'),
c('je suis super excitée d aller voir le spectacle de demain', 'positive'),
c('il est mon meilleur ami', 'positive')
)
neg_tweets = rbind(
c('je séteste cette voiture', 'negative'),
c('ce film est horrible', 'negative'),
c('je suis fatiguée ce matin', 'negative'),
c('je déteste ce concert', 'negative'),
c('il n est pas mon ami', 'negative')
)
test_tweets = rbind(
c('je suis heureuse ce matin', 'negative'),
c('un bon ami', 'negative'),
c('je me sens triste', 'positive'),
c('pas belle cette maison', 'negative'),
c('mauvaise chanson', 'negative')
)
tweets = rbind(pos_tweets, neg_tweets, test_tweets)
# build dtm
matrix= create_matrix(tweets[,1], toLower = TRUE, language="french",
removeStopwords=FALSE, removeNumbers=TRUE,
stemWords=TRUE)
問題 はこのために私は、このRの命令を使用します。
この問題が発生する理由を教えてください。
が@chateaurが言ったように、それは内部的にTOLOWERを実行し、あなたに
どこ行列に大文字が見えますか?私は、関数create_matrixのパラメータtoLowerが、データを小文字として扱うように関数に指示するだけであるが、実際にはデータそのものを変更しないと思う。 – chateaur
実際には、行列を調べると、ドキュメントは(matrix $ dimnames $ Docsのように)元の形で表示されますが、用語は小文字になります( 'matrix $ dimnames $ Terms'参照)。内部的にはすべてうまくいくようです:_aime_が_j AIME la voiture_に1回見つかります。 – Scarabee