2017-09-29 6 views
1

私は現在、ネットを研究しており、アプリストア用のJava Webクローラーを作成する方法を考え出しています。私はJsoupライブラリを試しましたが、無限のスクロールウェブページのクロールをサポートしていません。 javaを使用して無限ループのWebページをクロールする適切な方法が分かっている場合は、お気軽にアドバイスしてください。 Javaを使用し、セットアップPhantomJSへJavaを使用したApp Storeクローラ?

更新

どのように?

ありがとうございます。

+0

doesntのは、XML/HTMLを解析するには、良い作品? –

+0

オグ私はそれを得た、infinteスクロールがスクロールに満たされて、あなたはそれらのサービスを –

+0

Jsoupライブラリを使用しながら、そのトリッキーなビットは、私は「電卓」のキーワードの検索を適用すると、私は、解決策を見つけたと思ったそう見つけなければなりませんApp Storeに保存してからhtmlファイルを解析すると、最初の49個のアプリケーションしか取得できません。あなたは、JavaでPhantomJSを設定する方法上の任意のチュートリアルを知っていますか、アドバイスを –

答えて

0

JSoupは、HTMLパーサではなく、クローラです。あなたは、ブラウザの問題は、他のクローラでシードとして、同じURLを使用してページのスクロールやページとして使用して要求を記録することができ、無限スクロールでページをクロールする

Heritrixは、Javaで実装されたWebクローラーで、使用することを選択できます。 Nutch,StormcrawlerSparklerのような代替案も考えられます。

PhantomJSとそれに実装されているJSON Wire Protocolのようなものを使用して、ページをレンダリングしてスクロールイベントを実行して、ブラウザを操作して同様の結果を得ることができます。 使用できる既存の実装はPhantomJSDriverです。

+0

おかげでページを下にスクロールできるようにする方法が必要ですか?ここ –

+0

はStormCrawlerとAJAXのページをクロールする方法についてのチュートリアルです http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html –

+0

私は考えることができる最高Javaで実装されたPhantomJSDriverを使用してPhantomJSを制御しています。https://github.com/detro/ghostdriver –

関連する問題