私は現在、ネットを研究しており、アプリストア用のJava Webクローラーを作成する方法を考え出しています。私はJsoupライブラリを試しましたが、無限のスクロールウェブページのクロールをサポートしていません。 javaを使用して無限ループのWebページをクロールする適切な方法が分かっている場合は、お気軽にアドバイスしてください。 Javaを使用し、セットアップPhantomJSへJavaを使用したApp Storeクローラ?
更新
どのように?
ありがとうございます。
私は現在、ネットを研究しており、アプリストア用のJava Webクローラーを作成する方法を考え出しています。私はJsoupライブラリを試しましたが、無限のスクロールウェブページのクロールをサポートしていません。 javaを使用して無限ループのWebページをクロールする適切な方法が分かっている場合は、お気軽にアドバイスしてください。 Javaを使用し、セットアップPhantomJSへJavaを使用したApp Storeクローラ?
更新
どのように?
ありがとうございます。
JSoupは、HTMLパーサではなく、クローラです。あなたは、ブラウザの問題は、他のクローラでシードとして、同じURLを使用してページのスクロールやページとして使用して要求を記録することができ、無限スクロールでページをクロールする
。 Heritrixは、Javaで実装されたWebクローラーで、使用することを選択できます。 Nutch,Stormcrawler、Sparklerのような代替案も考えられます。
PhantomJSとそれに実装されているJSON Wire Protocolのようなものを使用して、ページをレンダリングしてスクロールイベントを実行して、ブラウザを操作して同様の結果を得ることができます。 使用できる既存の実装はPhantomJSDriverです。
おかげでページを下にスクロールできるようにする方法が必要ですか?ここ –
はStormCrawlerとAJAXのページをクロールする方法についてのチュートリアルです http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html –
私は考えることができる最高Javaで実装されたPhantomJSDriverを使用してPhantomJSを制御しています。https://github.com/detro/ghostdriver –
doesntのは、XML/HTMLを解析するには、良い作品? –
オグ私はそれを得た、infinteスクロールがスクロールに満たされて、あなたはそれらのサービスを –
Jsoupライブラリを使用しながら、そのトリッキーなビットは、私は「電卓」のキーワードの検索を適用すると、私は、解決策を見つけたと思ったそう見つけなければなりませんApp Storeに保存してからhtmlファイルを解析すると、最初の49個のアプリケーションしか取得できません。あなたは、JavaでPhantomJSを設定する方法上の任意のチュートリアルを知っていますか、アドバイスを –