2017-03-06 7 views
-1

Twitter出力から文字列のセクションを抽出する必要があります。文字列のセクションをRで抽出する

some_tweets = searchTwitter('weather', n=4, lang='en') 
st <- twListToDF(some_tweets) 
st[,"statusSource"] 

と出力のようなものです::私はやっているの抽出物は、このコードである

Twitter for iPhone 
Facebook 
Instagram 
Hootsuite 

:私は何を抽出することのように最後のセクションである

[1] "<a href=\"http://twitter.com/download/iphone\" rel=\"nofollow\">Twitter for iPhone</a>" 
[2] "<a href=\"http://www.facebook.com/twitter\" rel=\"nofollow\">Facebook</a>"    
[3] "<a href=\"http://instagram.com\" rel=\"nofollow\">Instagram</a>"       
[4] "<a href=\"http://www.hootsuite.com\" rel=\"nofollow\">Hootsuite</a>" 

私がしたいのは、それぞれのタイプの接続に対して、自分が持っているエントリの数を数えることです。

私は、私はそれらをカウントする必要がある文字列を抽出することができる方法上の任意のアイデア?

+2

使用 'GSUB( "<[^>] +>"、 ""、ST [、 "statusSource"])' –

+0

また、多分近い:http://stackoverflow.com/q/26809847/1000343 –

+0

Iいくつかの解決策を確認しましたが、わかりませんでした。ありがとうWiktor、それは私のために働く – Selrac

答えて

2

ここrvestパッケージを使用して一つの方法です。

x <- c("<a href=\"http://twitter.com/download/iphone\" rel=\"nofollow\">Twitter for iPhone</a>", 
     "<a href=\"http://www.facebook.com/twitter\" rel=\"nofollow\">Facebook</a>", 
     "<a href=\"http://instagram.com\" rel=\"nofollow\">Instagram</a>", 
     "<a href=\"http://www.hootsuite.com\" rel=\"nofollow\">Hootsuite</a>") 


library(rvest) 

unname(sapply(x, FUN = function(m) html_text(html_nodes(read_html(m), "a")))) 
[1] "Twitter for iPhone" "Facebook"   "Instagram"   "Hootsuite" 
関連する問題