txt <- readLines("this.txt")
library(tm)
corpus <- Corpus(VectorSource(txt))
corpus <- tm_map (corpus, removePunctuation)
tdm <- TermDocumentMatrix (corpus)
m <- as.matrix (tdm)
d <- data.frame(freq = sort(rowSums(m),decreasing = TRUE))
答えて
は、私はあなたがtm
ライブラリを使用して「」と「この」のような言葉を削除する方法を求めていると思いますか?
corpus <- tm_map(corpus, removeWords, c("hello","is","it","me","you're","looking","for?"))
編集:特定の単語を削除するには
corpus <- tm_map(txt, removeWords, stopwords("english"))
:もしそうなら、これを試してみてください、私は作品戦争と平和を、使用した例を作成しました。の前に用語を小文字に変換してください。文書用語行列を作成してください。これと同じように:
library(tm)
# load
txt <- readLines("this.txt")
corpus <- Corpus(VectorSource(txt))
# clean
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, PlainTextDocument)
# create dtm and get terms
dtm <- DocumentTermMatrix(corpus)
dtm$dimnames$Terms
変更し、これにすべき類似したテキストファイルと出力に合わせてコード:
dtm$dimnames$Terms
[1] "almost" "anonymous" "anyone" "anywhere" "author" "away"
[7] "aylmer" "book" "chapter" "contents" "copy" "cost"
[13] "date" "david" "ebook" "english" "give" "gutenberg"
[19] "iii" "included" "january" "language" "last" "leo"
[25] "license" "louise" "march" "maude" "may" "one"
[31] "online" "peace" "posting" "project" "restrictions" "reuse"
[37] "start" "terms" "title" "tolstoy" "tolstoytolstoi" "translators"
[43] "updated" "use" "vii" "volunteer" "war" "whatsoever"
[49] "widger" "wwwgutenbergorg"
あなたのデータがどのように見えるかは分かりません。しかし、単純なfind replace関数であるgsubを使うことができます。
あなたは正規表現が何であるかを知っていますすみませんが、Rは悲惨な私の人生を作る: '(:P –
私が持っています行列Dと私は、などのいくつかの単語を削除する必要があります: コーパス
あなた
"Hello"
を与える
gsub("The", "", "HelloThe")
? R関数gsubについてhereを読むことができます。ここ は、それがどのように働くか少し例を示します
> let <- c("A", "B", "A", "C") # My vector of letters
> let
[1] "A" "B" "A" "C"
> # I want delete "A", so this letter I will replace with nothing ("")
> l <- gsub("A", "", let) # "A" replace by "" in vector let
> l
[1] "" "B" "" "C"
あなたが今しなければならないのは、いずれかがある場合は、空の要素を削除します。
そして、あなたが唯一の1つのシンボルラインを持っている場合、その作品GSUB:
> let <- " a b c d g h a a a"
> let
[1] " a b c d g h a a a"
> l <- gsub("a", "", let)
> l
[1] " b c d g h "
tnks ...しかしマトリックスを持っていればどうすればいいですか?私はそれをどうすればいいのですか? –
マトリックス要素間でgsubが動作します。マトリックスをリストに変換する必要はありません。 KiprasやOliverによって書かれた例を使用することです。私はパッケージ 'tm'について少し知っているので、もっと理解するのを助けることはできません。 –
ok thnk y sooooたくさん –
- 1. 最後のJavaScript以外の特定の単語を削除しますか?
- 2. ファイルから特定の単語を削除します。
- 3. R - データフレーム内の単語の削除が削除されます
- 4. 特定の単語で始まる場合は、データフレームから完全な行を削除します。R
- 5. Rの特定の行以下のすべてのレコードを除外します
- 6. Rの単語で始まる文を削除しますか?
- 7. テキスト分析を使用するinner_joinはRで1000語以上の単語を削除します
- 8. R:単語3文字以下の単語を省略したwordcloudパッケージ
- 9. レジストリ内の特定の単語を検索し、キーを削除します
- 10. C#テキストファイル特定の単語を検索し、その単語を含むテキストの全行を削除します
- 11. bashのテキストファイルから特定の単語を削除する
- 12. ファイル内の特定の単語を削除する
- 13. 行が特定の単語で始まる場合にのみ一致する単語を削除します。
- 14. 文字列から特定の単語を削除する
- 15. 特定の単語をFilereaderから削除する
- 16. BASHが単語から特定のトークンを削除する
- 17. 特定の単語で副節を削除する方法
- 18. コーパスから意味のない単語を削除するR
- 19. 単語内の単語以外の文字は削除しますが、単語内の空白と一重引用符を削除してください。
- 20. MapReduceで特定の単語を含む文全体を削除します
- 21. 特定のダッシュを削除するR
- 22. vb.netの特定の単語の前に削除
- 23. x単語以上の行を削除するには? notepad ++ regex
- 24. R gsubは、列xの単語から列yの単語を削除します
- 25. つぶやきから適切な英語の単語を削除するR
- 26. XMLルートの下の特定のノードを削除しますか?
- 27. 私は、データフレームから特定の単語を削除しようとしている文字列
- 28. Notepad ++ Newbie - 特定の単語の後にすべてを削除するには?
- 29. 接頭語列は、以下のよう
- 30. ファイルから英語以外の単語を削除するにはどうすればよいですか?
私はすでにこれをやろうとしていますが、うまくいきません...私のような言葉を削除する必要があります:dから、 –
私はあなたが必要としていることを理解していますあなたのデータについてもっと具体的に: 残っている単語は何ですか? あなたのテキストはどの言語ですか? 残りの単語は大文字ですか、小文字ですか? 'The'ではなく' the'のような言葉があれば、それらを小文字に変換することができます。上記の私の編集を参照してください。 –