特定の要素をページ応答から削除してから、nutchに渡します。 は具体的には、私はすなわちApache nutch:解析する前にDOMを操作する
<div class="noindex">I shall not be indexed</div>
と私のページの一部をマークしたい「私はインデックスを作成してはならない」ように、Nutchの解析の前にそれらを削除したいその後NutchDocumentには存在しません。私は、現在、インデックス内のすべてのドキュメントに存在するため、ナビゲーション、ヘッダー、フッターのコンテンツを囲むことを計画しています。
おかげで、 ポール