これは、このページを廃棄する方法の基本的なアイデアです。スクラップされるページがたくさんある場合、rが遅くなるかもしれませんが。 あなたの質問は少し曖昧です。最終結果は.txtファイルになります。 pdfを持っているウェブページは何ですか?はい。このコードを使用して、pdfsを持つWebページのファイル拡張子をpdfに変更することができます。
library(xml2)
library(rvest)
urll="https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation"
urll%>%read_html()%>%html_nodes("div#results a")%>%html_attr("href")%>%
.[!duplicated(.)]%>%lapply(function(x) read_html(x)%>%html_nodes("body"))%>%
Map(function(x,y) write_html(x,tempfile(y,fileext=".txt"),options="format"),.,
c(paste("tmp",1:length(.))))
これは、上記のコードの内訳です:あなたがからスクラップしたいURL :
urll="https://search.newyorkfed.org/board_public/search?start=10&Search=&number=10&text=inflation"
はあなたが必要とするすべてのURLのを取得:
allurls <- urll%>%read_html()%>%html_nodes("div#results a")%>%html_attr("href")%>%.[!duplicated(.)]
あなたのテキストをどこに保存しますか?一時ファイルを作成します。
tmps <- tempfile(c(paste("tmp",1:length(allurls))),fileext=".txt")
現在のとおりです。 allurls
は、クラス文字です。あなたはそれをスクラップできるようにxmlに変更する必要があります。最後に、上記で作成したtmpファイルに書き込んでください。
allurls%>%lapply(function(x) read_html(x)%>%html_nodes("body"))%>%
Map(function(x,y) write_html(x,y,options="format"),.,tmps)
何も残さないでください。たとえば、..."format"),
の後には期間があります。それを考慮に入れてください。 ファイルはtempdirで書かれています。それらがどこにあるのかを判断するには、コンソールにコマンドtempdir()
と入力するだけで、ファイルの場所がわかります。同時に、tempfile
コマンド内で、スクラップ時にファイルの場所を変更することができます。
これが役に立ちます。
ありがとう、オニャン!非常に有用な答え!再度、感謝します! – SBAG009