Webクローラーは抽出されたテキストをWebページからのみ戻しますか? Webサーバーにもいくつかのpdf/docファイルが格納されているとします。 Webクローラーがそれらをクロールしてコンテンツを返すことはできますか?とにかく、良いオープンソースのJava Webクローラーのための提案は何ですか?Webクローラーの機能
ありがとうございました!
Webクローラーは抽出されたテキストをWebページからのみ戻しますか? Webサーバーにもいくつかのpdf/docファイルが格納されているとします。 Webクローラーがそれらをクロールしてコンテンツを返すことはできますか?とにかく、良いオープンソースのJava Webクローラーのための提案は何ですか?Webクローラーの機能
ありがとうございました!
Webクローラはテキストを抽出しません。いくつかの変換(例:UTF-8変換)を適用したhtmlを返します。
クローラのように考えると、最初のホップでは問題になりません。もちろん、複数のホップでは、これらのドキュメントを調べる必要があり、一般的なクローラはpdf/docsなどで複数のホップを提供しません。
Try https://stackoverflow.com/questions/2495289/what-is-a-good-java-web-crawler-library; それぞれには独自の機能があります。いくつかはpdfsとdocsをサポートしているかもしれませんが、そうでないものもあります。
2番目の段落では、ホップの意味を説明していただけますか? – Izza
ホップスで、私はHTMLリンクに続くジャンプの数を意味しました。最初の文書からリンクされた文書に行くと、それは最初のホップです。リンクのリンクに行くと、それは2番目のホップとなります。 – Fakrudeen