2017-08-16 5 views
0

私は特定のトピックを持つ小さな種子を持っています。私はNutchが関連するトピックに期待される外部リンクをたどるだけでよいことを望んでいます(それは経験史のみかもしれません)。私はどうすればそれをすることができます。私はいくつかのプラグインを書く必要がある場合、何が拡張ポイントでなければなりません。これに利用できる例がありますか?Apache Nutchでフェッチする選択された外部URL 2.3.1

答えて

0

具体的には、​​プラグインを試してみてください。その詳細はNUTCH-2038にあります。これは、何とかあなたのユースケースに対応した何らかの一般的な解決策として提供されていることに注意してください。もちろん、現実は違うかもしれません。

しかし、リンクが適切な候補であることを検出する良いヒューリスティックを考え出すことができる場合は、HtmlParseFilterにそれを実装して、返されるべきアウトリンクを選択することができます。潜在的なアウトリンクについて唯一の情報は、この段階で潜在的にURLであることに注意してください。

0

は、あなたのNutchの設定Nutchの-default.xmlの設定し

<property> 
    <name>db.ignore.internal.links</name> 
    <value>true</value> 
    <description>If true, when adding new links to a page, links from 
    the same host are ignored. This is an effective way to limit the 
    size of the link database, keeping only the highest quality 
    links. 
    </description> 
</property> 

<property> 
    <name>db.ignore.external.links</name> 
    <value>false</value> 
    <description>If true, outlinks leading from a page to external hosts 
    will be ignored. This is an effective way to limit the crawl to include 
    only initially injected hosts, without creating complex URLFilters. 
    </description> 
</property> 
関連する問題