私は、国連のWebサイト(セキュリティ評議会の決議など)から多数のPDF文書をダウンロードするために、LWP :: SimpleをPerlで使用しようとしています。 PDFを返すのではなく、HTMLエラーページを受け取っています。この非常に簡単な例を考えてみましょう:私はその後、「test.pdfという」の内容を見ればPerlとLWPでPDFをダウンロードできません
use LWP::Simple;
use strict;
my $url = 'https://documents-dds-ny.un.org/doc/UNDOC/GEN/N16/100/02/PDF/N1610002.pdf';
my $file = 'test.pdf';
getstore($url, $file);
、私は彼らがHTMLページであることを見つけます。
私はLWP :: UserAgentで数多くのトリックを試していますが、cURLでも成功していません。何か案は?
ブラウザでこのリンクに直接アクセスしようとすると、エラーメッセージが表示されます。したがって、認証、クッキー、リファラー、またはリンクに追加で必要なものがあります。 –
ブラウザで少しヒットしてしまいます。ブラウザにパスをペーストすると、PDFが正しく読み込まれます。 HTMLエラーページが表示されることもありますが、ほとんどの場合そうではありません。 – spatiallyConfused
"*ブラウザにパスを貼り付けたときの大部分は、PDFが正しく読み込まれます*"、その後、大部分の時間は以前はメインサイトを最初に訪問していました。ダウンロードサイトでは、メインサイトによって設定されたクッキーが必要です。 – ikegami