私は、R package rvestを使用して、このウェブサイトの左側のパネルに表示されているように、各階層のすべてのコードとコードをスクラブします。私はこれがrvestを使用してコンテンツをスクラップすることができません
url<-"http://apps.who.int/classifications/icd10/browse/2016/en/"
src<-read_html(url)
ATC<-src%>%html_node("a.ygtvlabel")%>%html_text
a.ygtvlbelをコード - 試してみましたまず
URL-- http://apps.who.int/classifications/icd10/browse/2016/en/
は、Webページ内のテキストの上にホバリング時に、私が見たクラスです。
ただし、NA_characterを返すだけです。 ページのhtmlソースには、これらのコード(外寄病)は直接含まれていませんが、代わりにすべてのコンテンツにhrefがあると思います。
どうすればこのようなページを削ることができますか?親切なアドバイス。
実際のAPIを使用するb/cは悪いですか? https://cran.r-project.org/web/packages/WHO/index.html – hrbrmstr
@hrbrmstrありがとうございます。 APIは実際には新しい考え方をもたらしました。ヒントから、私はRパッケージ - icdを使い、ICD10コードを特に探しているパッケージ定義変数から主要な章とサブチャプターを得ました。最も低いレベルのコードを取得できませんでした(私はVibrio cholerae 01、biovar choleraeのためA00.0 Choleraを意味します)。しかし、私はパッケージ化するAPIを使って混ざっているかどうか疑問に思います。 –