2016-11-12 3 views
-2

私は、ウェブサイトを見て、そのウェブサイトによって作られたすべてのGETリクエストをダウンロードし、それらのダウンロードをローカルファイルにプルするプログラムを書いている学校プロジェクトに取り組んでいます。ウェブサイトは情報が絶えず変化しているので静的なものではないので、私はそれを通してスクレーパーを実行することはできません。プログラムでこれを行うことができるように、JavaやC#を使用する方法はありますか?また、私は教授の名前の下にあるのでウェブサイトを提供することはできません。ウェブサイトのリクエストを取得する

p.s.ページの要素を調べてネットワークタブを選択することで手動で行うことができますが、プログラムでこれを行う際に問題が発生しています。

+1

答えは「イエス」です:プログラムであなたが好きな言語でそれを管理する方法があります。あなたが対処する特定の問題を投稿しない限り、誰もあなたのためにコードを書くつもりはありません。 – Matt

+1

BTW: 'そのウェブサイトによって作られたすべてのGETリクエストをダウンロードします.' **あなたがクライアントとして**あなた**のリクエストをお願いします。 –

+0

[保存ページ](http:// www.makeuseof.com/tag/save-complete-webpage-offline-reading/)chromeの機能ですか? – Gumbo

答えて

1

私は学校のプロジェクト私はあなたの教授は、彼/彼女が本当に求めているのか分からないと思うすべての

まずに取り組んでいます....

簡単な方法は、次のようになります。

A)を使用しWebClientHttpWebRequest又はHttpClientクラスはタグaimgscriptからHtmlAgilityPackとエキスリンクで、元のために、htmlコード

B)でHTMLを解析をダウンロードするには、linkなど(Regexが...)これには適していません

しかし、動的にjavascriptのPLUS絶対的なものへの相対URLマッピングによって作成されたリンクを欠場するこのアプローチはお尻の痛みです。

別の方法が使用されるだろう(実際のブラウザのエミュレータのを書いて、あなたのコースの外です) Webbrowser controlおよびFiddlerCoreライブラリで、それによって行われた要求を見て...

しかし、この場合には、私はこのアプローチはあなたには、いくつかのサードパーティのライブラリに

PS1を使用するよりも、他の何かを学ぶようになりますどのように表示されません:ページをWebbrowser controlにロードすると、解析するDOMオブジェクトを使用することも解決策ではありません。 Javascriptコードは、ページが読み込まれた後にいくつかのリンクを追加/削除または変更することがあります。だから、この質問はもっと広いです。

PS2:私はそれについてのあなたの教授の答えについての好奇心....

関連する問題