2016-09-14 9 views
1

だから、私は文書コーパスを持っているので、すべての文書のすべての大文字(つまり、その単語のすべての文字はすべて大文字)の単語を見つける必要があります。私はそれを見つける方法がわかりません。私はRでテキストマイニング「tm」パッケージを見てきましたが、それを見つけることのできる関数はありません。コーパス内のすべての大文字を見つける方法R

入力文字列:必要"Russia Is THE BiggEST cOUNTRY"

出力:"THE"

この使用して "TM" のパッケージを行うにはどのように?

答えて

1

正規表現を使用してください。

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE" 
+0

これは、 d、例えば 'string < - "で試してみましょう。ロシアは最大の拠点です " – Cath

2

あなたがgregexprとregmatches使用することができます。

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE" 

データを

stringrで
abc <- "Russia Is THE BiggEST cOUNTRY" 
2

(あなたはキャップを持つベクトルとして、すべてのそのような言葉を()検索する場合だけでなく、最初のもの):

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD" 
library(stringr) 
unlist(str_match_all(s, "\\b[A-Z]+\\b")) 
[1] "THE" "IN" "WORLD" 
関連する問題