私はrvestを使用してhttps://www.psychologytoday.com/ca/therapists/m5gからスクレイプしています。特に、私が後にしているのは、タグのdata-myurl
html属性で、id="results-page"
です。ソースを見るとdiv
とid="results-page"
の1つだけが表示されます。 data-myurl
属性は、ピリオドで区切られた数字の文字列の追加を除いて、メインURLのように見え、アンダースコア、そうrvestを使用しているときに不完全なhtml属性
<div id="results-page" data-myurl="https://www.psychologytoday.com/ca/therapists/m5g?sid=1510588046.3852_2969">
ようにあなたが見る数字はおそらく異なるだろう。
require(rvest)
fsa <- read_html('https://www.psychologytoday.com/ca/therapists/m5g')
fsa %>% html_node('div #results-page') %>% html_attr("data-myurl")
しかし、これが唯一の
[1] "https://www.psychologytoday.com/ca/therapists/m5g"
だから、すべてが元のURLの後に不足して返します。それを試してみて抽出するには、私は次のコードを使用します。ソースを見ると、script
タグが表示されないので、JSのようには見えません。 URLにあるこれらの数字が実際にどのようなもので、どのようにそれらを抽出するのか誰にも分かりますか?ありがとう!
なぜあなたは、番号を抽出しようとしていますか?ページ内のコンテンツに関する情報は含まれていません。 – Jai
リストの一番下にある「次へ」ボタンをクリックして次の20個以下のエントリにアクセスすると、その次のページのURLに数字が表示されます。最初のページから数字を取得することができたら、後で直接ページにアクセスすることができます – panzerotti
- その番号なしで次のページにアクセスできます - https://www.psychologytoday.com/ca/therapists/m5g?rec_next=21であなたを取得します – Jai