少し難しいものを作りたいと思っています。リンクから除いてクローラーを作って、サイトのソースコードもダウンロードしたいと思っています。ステートメントが存在する場合は、各サイトのソースコードを検索します(たとえば、このサイトを除外する見出しがある場合)。ウェブサイトのソースコードを取得するウェブクローラー
-3
A
答えて
0
2
私はかつて同じようなもののためにPHPスクリプトを見つけましたが、(SpyrosPが正確に言ったように)クライアント側のコードを取得しました。 http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html
+0
はい私はHTMLコードを意味します – akageek
1
ここには、情報を取得するためのHttpWebRequestオブジェクトを使用するためのC#サンプルがあります。
0
あなたは
jsoup通過することができjsoupは、現実世界のHTMLを扱うためのJavaライブラリです。
jsoup - official site link
情報を取得するには、タグを使用してHtmlを解析します。
0
linux comando wgetでテストしましたか? http://m.linuxjournal.com/content/downloading-entire-web-site-wget
あなたもテストできると思います。
関連する問題
- 1. ウェブサイトのソースコードを取得できません(別のソースコードを取得する)
- 2. コンボグラフ、棒グラフ、その他のグラフのソースコードを取得するウェブサイト
- 3. Pythonでウェブサイトのソースコードの行を取得するには?
- 4. このウェブサイトのソースコードを取得するには?
- 5. 要素のソースコードを取得
- 6. .swf URIのHTMLソースコードを取得する
- 7. パッケージ/モジュールのソースコードを取得する
- 8. ページのソースコードを取得する
- 9. PHPのhtmlソースコードを取得する
- 10. 別のソースコードを取得する
- 11. ウェブクローラー - リンクをたどる
- 12. このウェブサイトのソースコードを入手する
- 13. ウェブサイトのソースコードを理解するツール
- 14. htmlソースコードからリンクを取得する
- 15. Rubyでソースコードを取得するには?
- 16. WebViewからHTMLソースコードを取得する
- 17. httpsからHTMLソースコードを取得する
- 18. ページからソースコードを取得する
- 19. shoutcastソースコードを取得するには?
- 20. 良いウェブクローラーのエチケットのガイドライン
- 21. Regex to yearid = "10287"ウェブサイトのソースコード
- 22. ウェブサイトの代わりにソースコードを見る
- 23. 取得htmlのウェブサイト
- 24. ランチャー2ソースコードを取得しますか?
- 25. ソースコード? "私はソースファイルを取得します"
- 26. Python - ウェブページの解析ソースコードを取得
- 27. ウェブサイトのポート番号を取得する
- 28. ウェブサイトのリクエストを取得する
- 29. ウェブサイトのデータを取得するExcel VBA
- 30. PHPウェブサイト完成(サンプル)ソースコード
*ソースHTML * – BrokenGlass
あなたの質問はあまり具体的ではなく、このサイトのほとんどの一般的な言語に対して既に回答済みでない限り、これはまったく不可能です。すべてのWebクローラがページの「ソースコード」(HTML)をある時点で取得することを覚えておいてください。それは捕獲される唯一のものです。 – Mat