2011-06-26 6 views
0

Webクローラーは抽出されたテキストをWebページからのみ戻しますか? Webサーバーにもいくつかのpdf/docファイルが格納されているとします。 Webクローラーがそれらをクロールしてコンテンツを返すことはできますか?とにかく、良いオープンソースのJava Webクローラーのための提案は何ですか?Webクローラーの機能

ありがとうございました!

答えて

1

Webクローラはテキストを抽出しません。いくつかの変換(例:UTF-8変換)を適用したhtmlを返します。

クローラのように考えると、最初のホップでは問題になりません。もちろん、複数のホップでは、これらのドキュメントを調べる必要があり、一般的なクローラはpdf/docsなどで複数のホップを提供しません。

+0

2番目の段落では、ホップの意味を説明していただけますか? – Izza

+1

ホップスで、私はHTMLリンクに続くジャンプの数を意味しました。最初の文書からリンクされた文書に行くと、それは最初のホップです。リンクのリンクに行くと、それは2番目のホップとなります。 – Fakrudeen

関連する問題