tm
とwordcloud
を使用して、Rで基本的なテキストマイニングを実行しています。処理されるテキストには、asfdg、aawptkrのような無意味な単語が多数含まれています。 私が見つけた最も近い解決策は、library(qdapDictionaries)
を使用し、単語の妥当性をチェックするカスタム関数を構築することです。コーパスから意味のない単語を削除するR
library(qdapDictionaries)
is.word <- function(x) x %in% GradyAugmented
# example
> is.word("aapg")
[1] FALSE
使用テキストマイニングの残りの部分は次のとおりです。
curDir <- "E:/folder1/" # folder1 contains a.txt, b.txt
myCorpus <- VCorpus(DirSource(curDir))
myCorpus <- tm_map(myCorpus, removePunctuation)
myCorpus <- tm_map(myCorpus, removeNumbers)
myCorpus <- tm_map(myCorpus,foo) # foo clears meaningless words from corpus
問題は、データフレームを処理するために正常に動作しますが、コーパス取り扱いのためにそれを使用する方法is.word()
のですか?
おかげで、それは最もリソース効率的な方法(私は非常によくパッケージを知らない)が、それは動作するはずになる場合
hello check 'content_transformer'それはあなたが必要とするものです –
@ s.brunel、' content_transformer'はコーパスを変更する関数で動作し、 'is.word'は真/偽を返すだけです – parth