0
injector、generator、fetcher、dbUpdaterなどの便利なドキュメントは見つかりません。 私はそれが何をするのか理解する必要があります。 私はnutchを使用しています。2.2.1Apache NutchでのparserJobの有用性は何ですか?
injector、generator、fetcher、dbUpdaterなどの便利なドキュメントは見つかりません。 私はそれが何をするのか理解する必要があります。 私はnutchを使用しています。2.2.1Apache NutchでのparserJobの有用性は何ですか?
1.x/2.xの両方の構文解析は同じ概念です。以前にフェッチされたWebページから有用な情報を抽出します。
もちろん、「有用」は非常に広い用語です。より多くのNutchに焦点を当てたビューでは、これは通常、すべての解析フィルタプラグインを実行することを意味します(各プラグインは1つの特定のジョブを実行する責任があります)。たとえば、parse-metatags
プラグインは、特定の(設定された)メタタグを抽出し、バックエンドに格納できるようにします。デフォルトでは、Nutchはウェブページのテキストコンテンツとタイトル、ヘッダーなどの追加情報のみを抽出しようとします。