私はいくつかのテキストマイニング(PCA、HC、K-Means)をやっていますが、これまではすべてを正しくコーディングすることができました。しかし、修正したい小さな欠陥があります。Rでtmパッケージを使用してステミングワードが正しく動作しませんか?
私はコーパスを踏みそそうとすると、適切な方法で識別されない同じラジカルの異なる単語が存在するため、コーパスが正しく機能しません。 は、これらの私が特に興味を持っている言葉です(それはスペイン語でだと、彼らは「子供」または関連を意味する):
niñera, niños, niñas, niña, niño
をしかし、私は、コードを実行したときに、私はこれらの言葉はまだ
を除いて同一であることを取得しますniña, niño --> niñ
しかし、他の人は同じままですので、私はniña/niñoのためだけに形づくっていますが、他の人はそうではありません。
これは、コーパスを作成するための私のコードです:
corp <- Corpus(DataframeSource(data.frame(x$service_name)))
docs <- tm_map(corp, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords("spanish"))
docs <- tm_map(docs, stemDocument, language = "spanish")
docs <- tm_map(docs, PlainTextDocument)
dtm <- DocumentTermMatrix(docs)
dtm
私はいくつかの提案を本当に感謝します!