2017-10-11 42 views
0

私の妻は、私たちがオンラインになった医療ブログのエントリをすべて取得したいと考えています。コピー貼り付けは永遠に続くので、これはウェブスクラップを試す良い機会だと思っていました。私のコードは以下の通りです:接続が失敗し、接続できません

library(rvest) 
url <- "http://www.carepages.com/" 
pgsession <-html_session(url) 
pgform <- html_form(pgsession)[[1]] 
filled_form <- set_values(pgform, 
        'session[email]' = "[email protected]" 
        'session[password]' = "mypassword") 
submit_form(pgsession,filled_form) 

しかし、私はこれを実行すると、私はカールで

エラー:: curl_fetch_memory(URL、=ハンドルハンドル)を取得:www.carepages.comに の接続に失敗しましたポート80:タイムアウト

各ブログのスクラップを試すためにページに入ることさえできません。

答えて

0

提示されたコードで発生している必要があります最初のエラーが"[email protected]"

はなくhtatページの2つ目のフォームを使用した後、行方不明カンマに関し

Error: unexpected string constant in: 
    "    'session[email]' = "[email protected]" 
        'session[password]'" 

...だった:

pgform <- html_form(pgsession)[[2]] 
filled_form <- set_values(pgform, 
        'session[email]' = "[email protected]" 
        'session[password]' = "mypassword") 
+0

私が貼り付けたときカンマは見落としていましたので、今すぐOKです。第二部を変更し、今私はas.vectorで エラー(y)を取得する:オブジェクトのpgformは "lapplyに 、その後 エラーが見つかりません(X、F):オブジェクトのfilled_form" – JLUser

+0

あまりが見つかりませんテストされたコードが実行される限り、もっと多くのことを行うことができます。なぜなら、それらは有効な電子メールとパスワードの値ではないと確信しているからです。 'pgform'オブジェクトが存在するはずです。 str()でそれを見ると、 'email'も' password'もフィールド名ではないことがわかります。 –

+0

AND ...私は第1フォームではなく第2フォームオブジェクトで作業するべきだと思います。そこには、 "session [email]"という名前のファイルがあります。 –

関連する問題