ウェブサイトのソースコードを取得するウェブクローラー

-3

少し難しいものを作りたいと思っています。リンクから除いてクローラーを作って、サイトのソースコードもダウンロードしたいと思っています。ステートメントが存在する場合は、各サイトのソースコードを検索します（たとえば、このサイトを除外する見出しがある場合）。ウェブサイトのソースコードを取得するウェブクローラー

出典

2011-03-19 akageek

*ソースHTML * – BrokenGlass

あなたの質問はあまり具体的ではなく、このサイトのほとんどの一般的な言語に対して既に回答済みでない限り、これはまったく不可能です。すべてのWebクローラがページの「ソースコード」（HTML）をある時点で取得することを覚えておいてください。それは捕獲される唯一のものです。 – Mat

スクリプトからサーバーコードを読み取ることはできません。クライアント上で実行されているHTML（またはその他のjavascript）しか取得できません。

出典

2011-03-19 19:53:31 Spyros

はい私はHTML – akageek

を意味します.htmlには "if"はありません:) HTMLを取得することは、すべてのクローラが行うことであり、非常に簡単です。 – Spyros

あなたはもっと私を助けることができますか？ – akageek

私はかつて同じようなもののためにPHPスクリプトを見つけましたが、（SpyrosPが正確に言ったように）クライアント側のコードを取得しました。 http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html

出典

2011-03-19 19:55:35 Cogicero

はい私はHTMLコードを意味します – akageek

ここには、情報を取得するためのHttpWebRequestオブジェクトを使用するためのC＃サンプルがあります。

http://www.csharp-station.com/HowTo/HttpWebFetch.aspx

出典

2011-03-19 20:27:26

あなたは
jsoup通過することができjsoupは、現実世界のHTMLを扱うためのJavaライブラリです。
jsoup - official site link
情報を取得するには、タグを使用してHtmlを解析します。

出典

2013-03-23 12:13:26 PKhode