私は特定のトピックを持つ小さな種子を持っています。私はNutchが関連するトピックに期待される外部リンクをたどるだけでよいことを望んでいます(それは経験史のみかもしれません)。私はどうすればそれをすることができます。私はいくつかのプラグインを書く必要がある場合、何が拡張ポイントでなければなりません。これに利用できる例がありますか?Apache Nutchでフェッチする選択された外部URL 2.3.1
0
A
答えて
0
具体的には、プラグインを試してみてください。その詳細はNUTCH-2038にあります。これは、何とかあなたのユースケースに対応した何らかの一般的な解決策として提供されていることに注意してください。もちろん、現実は違うかもしれません。
しかし、リンクが適切な候補であることを検出する良いヒューリスティックを考え出すことができる場合は、HtmlParseFilter
にそれを実装して、返されるべきアウトリンクを選択することができます。潜在的なアウトリンクについて唯一の情報は、この段階で潜在的にURLであることに注意してください。
0
は、あなたのNutchの設定Nutchの-default.xmlの設定し
<property>
<name>db.ignore.internal.links</name>
<value>true</value>
<description>If true, when adding new links to a page, links from
the same host are ignored. This is an effective way to limit the
size of the link database, keeping only the highest quality
links.
</description>
</property>
<property>
<name>db.ignore.external.links</name>
<value>false</value>
<description>If true, outlinks leading from a page to external hosts
will be ignored. This is an effective way to limit the crawl to include
only initially injected hosts, without creating complex URLFilters.
</description>
</property>
関連する問題
- 1. Nutch 2.3.1クロールシードURLのみ
- 2. Apache Nutch注入URL
- 3. Apache Nutch 2.3.1リモートコマンドが失敗しました
- 4. 外部リンクがNutchでクロールされたベースURLへのパスをトレースします
- 5. Nutch 2.3.1で取得されたページの生のHTMLを取得する
- 6. Apache Nutch Web CrawlingのシードURL
- 7. Nutch 2.3の代わりにフェッチされたURLのみを生成する012
- 8. Nutchがseed.txtで指定されたURL以外のURLをクロールしない
- 9. Apache Nutch:フェッチするURLがありません。シードリストとURLフィルタを確認してください。
- 10. 同じトランザクションで削除された行をフェッチ/選択する
- 11. 外部URLの逆プロキシ - Apache
- 12. Apache Nutchでクロール中のエラー
- 13. 外部テーブルでクエリが選択されていません
- 14. Solrの6とNutchは2.3.1統合
- 15. Nutch 2.3.1ドメイン名を持たない内部リンクをクロールしない
- 16. 選択されたオプションは、データベースのデータベースからフェッチする
- 17. apache nutchを使って外部リンクをクロールするのを防ぐ方法は?
- 18. Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
- 19. Nutchの条件に基づいてフェッチした後にURLを拒否する
- 20. Apache Nutch 2.3.1をサイドバーではなく記事コンテンツをクロールする方法を制限する方法
- 21. 外部マイクを選択する方法
- 22. 選択された選択(選択された値)例
- 23. Nutchの特定のタグからデータを選択する方法
- 24. Swing GUIでネストされた部分式を選択する
- 25. エラー:mongodbでApache nutchを起動中に
- 26. Apache Nutchとubuntuとの互換性
- 27. のApache Nutchは - NoSuchMethodError
- 28. ストームクローラ - テクノロジースタックとApache Nutch
- 29. DirectoryChooserで外部デバイスを選択
- 30. CodeIgniter 3:フェッチされたデータのURL