2017-06-14 23 views
-1

以下のテキストから特定のパターンを抽出する必要があります。私が取得する必要があり文字列から繰り返しパターンを抽出する方法

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Budget 2016-2017 
Curabitur dictum gravida mauris. Budget 2015-2016 mauris ut leo. Cras 
viverra metus rhoncus sem 

'予算の\ D {4} - \ dの{4}' テキストの一部、それがどのように見えるので:

[1] "Budget 2016-2017" "Budget 2015-2016" 
+0

通常、簡単な方法があります。あなたはどうやってその文字列を取得しますか?パッケージ 'rvest'には、例えばオブジェクトの結果であるオブジェクトに対して' rvest :: html_text() 'を実行する関数があります。 'rvest :: read_html(your_url)' –

+0

私は質問 – user3357059

+0

'stringr :: str_extract_all(x、 '予算[0-9] {4} - [0-9] {4}'}'を編集しました。 – Sotos

答えて

0

あなたはあなたが欲しいものを得ることができます次

library(stringr) 
string <- "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Budget 2016-2017 Curabitur dictum gravida mauris. Budget 2015-2016 mauris ut leo. Cras viverra metus rhoncus sem" 

unlist(str_extract_all(string, 'Budget [0-9]{4}-[0-9]{4}')) 

結果:

> unlist(str_extract_all(string, 'Budget [0-9]{4}-[0-9]{4}')) 
[1] "Budget 2016-2017" "Budget 2015-2016" 
0

何か近い

s <- "Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Budget 2016-2017 Curabitur dictum gravida mauris. Budget 2015-2016 mauris ut leo. Cras viverra metus rhoncus sem" 

gsub(".*(Budget [0-9]{4}-[0-9]{4}).*", "\\1", s) 
[1] "Budget 2015-2016" 
関連する問題