このtrain timetable web pageからデータにアクセスしたいと思います。私は、htmlファイルとしてローカルにソースコードを保存するときrvestでオンラインPDFをスクラップ
> read_html("https://www.scotrail.co.uk/sites/default/files/assets/download_ct/_sr1705_glasgow-edinburgh_via_falkirk_highv2.pdf")
{xml_document}
<html>
[1] <body><p>%PDF-1.5\r%\xe2ãÏÓ\r\n22 0 obj\r<>\rendobj\r \rxref\r22 97\r0000000 ...
[2] <html><p>C*ÐsO\u0086ZFWM\u0086X H$\u0083>\u0083-Ïs\u0086O=Ì\u008c"Lí½/1\u009c\u009fõ\u008e\u0 ...
しかし、私はちょうど罰金内容をこすりすることができます:私は思い
> read_html("/path/to/this/file/_sr1705_glasgow-edinburgh_via_falkirk_highv2.html")
{xml_document}
<html dir="ltr" mozdisallowselectionprint="" moznomarginboxes="">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">\n<meta charset="utf- ...
[2] <body tabindex="1" class="">\n <div id="outerContainer">\n\n <div id="sidebarContainer"> ...
をURLにrvest使用すると便利な答えを与えるものではありませんhtmlファイルとして手動でダウンロードして保存するのではなく、URLを使用してスクレープするのが好きです。私はPDFについて根本的な何かを見逃しているように感じます。私はURLのファイル拡張子が.pdfだがF12はhtmlを明らかにするのは混乱している。
このURLから直接スクラップする方法はありますか?なぜローカルに保存しても問題が解決しないのですか?
'read_html()'は、あなたがhtmlとしてpdfファイルを読み込もうとしているので、ごみを与えます。 PDFを保存するには 'download.file(" https://blablabla.pdf "、" save_here.pdf ")'を使用できます –
どこから最初のURLを取得しますか?あなたはすべてのオンラインPDF文書のURLを持っていますか? –
私はウェブサイトを使って最初のURLに移動しました。ドキュメントの数は、同じように他のURLを取得するのに十分なほど小さいです。 – joga