Webクローラーの機能

Webクローラーは抽出されたテキストをWebページからのみ戻しますか？ Webサーバーにもいくつかのpdf/docファイルが格納されているとします。 Webクローラーがそれらをクロールしてコンテンツを返すことはできますか？とにかく、良いオープンソースのJava Webクローラーのための提案は何ですか？Webクローラーの機能

ありがとうございました！

出典

2011-06-26 Izza

Webクローラはテキストを抽出しません。いくつかの変換（例：UTF-8変換）を適用したhtmlを返します。

クローラのように考えると、最初のホップでは問題になりません。もちろん、複数のホップでは、これらのドキュメントを調べる必要があり、一般的なクローラはpdf/docsなどで複数のホップを提供しません。

出典

2011-06-26 06:39:49 Fakrudeen

2番目の段落では、ホップの意味を説明していただけますか？ – Izza

ホップスで、私はHTMLリンクに続くジャンプの数を意味しました。最初の文書からリンクされた文書に行くと、それは最初のホップです。リンクのリンクに行くと、それは2番目のホップとなります。 – Fakrudeen

Try https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library; それぞれには独自の機能があります。いくつかはpdfsとdocsをサポートしているかもしれませんが、そうでないものもあります。

出典

2011-06-26 04:56:17 Skaklram

答えて

関連する問題