2016-07-11 7 views
2

私はRの新しいプログラマです。いくつかの記事(.txt)がフォルダに保存されています。 Rで記事を読み込むことができます。私は2つの方法がありますが、どちらが優れているかわかりません。いくつかのキーワードを使用して、これらのキーワードを含む記事を見つける方法を教えてください。

は、ここに私のコードです:

# 1 
library(tm) 
cname <- file.path("D:/magazine_pass") 
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain)) 

# 2 
dir.list <- list.files("D:/magazine_pass" , full.name = TRUE) 
for(i in 1:length(dir.list)){ 
     file0 <- dir.list[i] 
     s <- readLines(file0,encoding="ASCII") 
     s <- sapply(s,function(row) iconv(row, "ASCII", "ASCII", sub="")) 
    } 

そして私はまた、これらのキーワードを含むどの記事を見つけるためにいくつかのbiokeywords(ex.clean energy,wearable device)を使用しようとしています。 どうしたらいいですか?

コードを表示して、簡単に説明してください。どうもありがとう。

答えて

0

label1 = subset(docs, grepl(paste(c("clean energy","wearable device"), collapse = "|"), docs))

これはあなたのコーパスに目を通すとgrepl関数内の語を含むすべてのエントリを抜く必要があります。基本的なgrep関数は、提供されたパターンに一致する文字列パターンをファイルで検索します。 greplは、パターンが関数内で一致するかどうかを示すTRUE/FALSEの論理ベクトルを返します。

+0

ありがとうございます! – Bruce

関連する問題