URLの数が少ない(すべての)リンクをすべてクロールする必要があります。そのために、hadoopとhbaseでApache Nutch 2.3.1を使用しています。以下は、この目的で使用されるnutch-site.xmlファイルです。Nutch 2.3.1クロールシードURLのみ
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<!-- language-identifier plugin properties -->
<!-- Language properties ends here -->
<!-- These tags are included as our crawled documents has started to decrease -->
GeneratorJob: Selecting best-scoring urls due for fetch.
GeneratorJob: starting
GeneratorJob: filtering: false
GeneratorJob: normalizing: false
GeneratorJob: topN: 20
GeneratorJob: finished at 2017-04-21 16:28:35, time elapsed: 00:00:02
GeneratorJob: generated batch id: 1492774111-8887 containing 0 URLs
Generate returned 1 (no new segments created)
Escaping loop: no more URLs to fetch now
この問題の解決方法をお探しですか? –
シード注入後にCycleを実行する必要があります。Generate> Fetch> Parse> UpdateDb。シングルクロールではすべてのリンクを取得できないため、このサイクルを複数回実行する必要があります。 –