テキスト分析 - 私のコーパスから小文字の単語を削除したい。 gsubを使用できますか？

私は適切な名前を見つけるためにコーパスをクリーンアップしようとしています。どのように小文字をすべて削除するのですか？ removeWords？ gsub？テキスト分析 - 私のコーパスから小文字の単語を削除したい。 gsubを使用できますか？

doc.corpus <- tm_map(doc.corpus, removePunctuation) 
doc.corpus <- tm_map(doc.corpus, removeNumbers) 
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english")) 
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("SMART")) 

doc.corpus <-tm_map(doc.corpus, removeWords, lower) ****something like this?**** 

inspect(doc.corpus[8])

出典

2017-10-31 Nelson R. Jatel

'tolower'ですか？ – patL

推測、Opはすべての小文字の単語を削除したい！ – amrrs

@ネルソン・R・ジャテルあなたが役に立った場合、答えを受け入れることができますか？ – Santosh

以下を試してください。希望の出力が何であるかに応じて、置換の順序を変更する必要があります。以下の例では、ドットは、略語「U.S.」から削除され、「U S」を与え、2つの別個の文字のみを与える。あなたがそのような略語を保持したいならば、正規表現を適合させる必要があります。

library(tm) 
data(crude) 
corp <- crude 

corp <- tm_map(corp, content_transformer(gsub), pattern="(?<=\\s|^)([a-z]+)(?=\\s|$|\\W)", replacement = " ", perl=T) 
corp <- tm_map(corp, content_transformer(gsub), pattern="\\d|\\W", replacement = " ", perl=T) 
corp <- tm_map(corp, content_transformer(gsub), pattern="\\s+", replacement = " ", perl=T) 

inspect(corp[[1]])

出典

2017-10-31 09:06:00

teststring <- "aaa Bbb ccc Ddd eee Fff" 
trimws(gsub("\\b[a-z]+\\b", "", teststring)) 
#[1] "Bbb Ddd Fff"

gsub上記の関数はすべて小文字の単語を削除します。したがって、このgsub関数をコードに次のように使用できます。

出典

2017-10-31 09:56:28 Santosh

@ulfelder指摘していただきありがとうございます。私はOPの質問に答えを更新しました。 – Santosh

テキスト分析 - 私のコーパスから小文字の単語を削除したい。 gsubを使用できますか？

答えて

関連する問題