2011-03-19 19 views
-3

少し難しいものを作りたいと思っています。リンクから除いてクローラーを作って、サイトのソースコードもダウンロードしたいと思っています。ステートメントが存在する場合は、各サイトのソースコードを検索します(たとえば、このサイトを除外する見出しがある場合)。ウェブサイトのソースコードを取得するウェブクローラー

+1

*ソースHTML * – BrokenGlass

+0

あなたの質問はあまり具体的ではなく、このサイトのほとんどの一般的な言語に対して既に回答済みでない限り、これはまったく不可能です。すべてのWebクローラがページの「ソースコード」(HTML)をある時点で取得することを覚えておいてください。それは捕獲される唯一のものです。 – Mat

答えて

0

スクリプトからサーバーコードを読み取ることはできません。クライアント上で実行されているHTML(またはその他のjavascript)しか取得できません。

+0

はい私はHTML – akageek

+1

を意味します.htmlには "if"はありません:) HTMLを取得することは、すべてのクローラが行うことであり、非常に簡単です。 – Spyros

+0

あなたはもっと私を助けることができますか? – akageek

0

あなたは
jsoup通過することができjsoupは、現実世界のHTMLを扱うためのJavaライブラリです。
jsoup - official site link
情報を取得するには、タグを使用してHtmlを解析します。

関連する問題