2017-11-21 2 views

答えて

1

1.x/2.xの両方の構文解析は同じ概念です。以前にフェッチされたWebページから有用な情報を抽出します。

もちろん、「有用」は非常に広い用語です。より多くのNutchに焦点を当てたビューでは、これは通常、すべての解析フィルタプラグインを実行することを意味します(各プラグインは1つの特定のジョブを実行する責任があります)。たとえば、parse-metatagsプラグインは、特定の(設定された)メタタグを抽出し、バックエンドに格納できるようにします。デフォルトでは、Nutchはウェブページのテキストコンテンツとタイトル、ヘッダーなどの追加情報のみを抽出しようとします。

関連する問題