2017-12-22 25 views
1

メインURLを使用して、サブドマンからウェブページのコンテンツを抽出します。RのRcrawlerを使用してサブドメインから情報を抽出するにはどうすればよいですか?

私はINDEXのデフォルトの変数を持って、私たちは、ウェブサイトのすべてのURLを参照することができ、このコードを実行した後Rcrawler

library(Rcrawler) 

Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address")) 

を使用してみました。 1つのURLは、「http://xbyte-technolabs.com/contact_us.phpは、「私はそれからの連絡先の詳細を抽出したい」があります。今

は、誰かが私が

答えて

0
library(Rcrawler) 
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 1, no_conn = 1, ExtractCSSPat = c(".address")) 

pageid <- as.numeric(INDEX$Id[INDEX$Url == 'http://xbyte-technolabs.com/contact_us.php']) 
DATA[pageid] 

?Rcrawlerによれば、Rcrawlerは、2つのグローバル変数

  • INDEX: A data frame in global environement representing the generic URL index,including the list of fetched URLs and page details (contenttype,HTTP state, number of out-links and in-links, encoding type, and level), and

  • DATA: A list of lists in global environement holding scraped contents.

INDEXのid変数

を作成DATAにおけるリスト要素に対応します。上記のコードスニペットは、あなたが興味のあるURLに対応するIdを探します。

サイドノート:あなたが探しているURLを知っているので、ウェブサイト全体をクロールすることは過度のようです。

+1

このコードスニペットは解決策であるかもしれませんが[説明を含む](// meta.stackexchange.com/questions/114762/explaining-entirely-code-based-answers)あなたの質を改善するのに本当に役立ちます役職。将来読者の質問に答えていることを覚えておいてください。そうした人々はあなたのコード提案の理由を知らないかもしれません。 – yivi

+1

@yivi私は自分の答えに少しの説明を加えました。乾杯! –

+0

@OttoKässiメインURLからデータを抽出するのに役立ちます。ありがとうございます。 – Premal

0
R.でRcrawlerを使用してメインのURLから、この特定のURL 『』 http://xbyte-technolabs.com/」に行くことができますどのように私を導いてくださいすることができます
library(Rcrawler) 

Rcrawler("http://www.xbyte-technolabs.com/",no_cores = 4,no_conn = 4) 

for (i in length(INDEX)) { 
    for (j in nrow(INDEX)) { 

    Rcrawler(Website = INDEX[[i]][j], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address")) 

    } 

} 
#Rcrawler(Website = INDEX[[i]][23], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address")) 
class(DATA) 
head(DATA) 

ad <- DATA[[1]] 
ad <- as.character(ad) 
cat(ad) 

私は 誰でもエラーを次のコードで間違って何かを得ると思います申し訳ありません:[[strsplitで

エラー(GSUB( "http://|https://|www\"、 ""、ウェブサイト)、 "/")、C(1、: 添字範囲外

関連する問題