だから、私は文書コーパスを持っているので、すべての文書のすべての大文字（つまり、その単語のすべての文字はすべて大文字）の単語を見つける必要があります。私はそれを見つける方法がわかりません。私はRでテキストマイニング「tm」パッケージを見てきましたが、それを見つけることのできる関数はありません。コーパス内のすべての大文字を見つける方法R

入力文字列：必要"Russia Is THE BiggEST cOUNTRY"

出力："THE"

この使用して "TM" のパッケージを行うにはどのように？

出典

2016-09-14 J. Tang

正規表現を使用してください。

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE"

出典

2016-09-14 12:08:43

これは、 d、例えば 'string < - "で試してみましょう。ロシアは最大の拠点です " – Cath

あなたがgregexprとregmatches使用することができます。

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE"

データを

stringrで

abc <- "Russia Is THE BiggEST cOUNTRY"

出典

2016-09-14 12:19:55

（あなたはキャップを持つベクトルとして、すべてのそのような言葉を（）検索する場合だけでなく、最初のもの）：

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD" 
library(stringr) 
unlist(str_match_all(s, "\\b[A-Z]+\\b")) 
[1] "THE" "IN" "WORLD"

出典

2016-09-14 12:27:37

コーパス内のすべての大文字を見つける方法R

答えて

データを

関連する問題