を私はNutchの1.3でサイトをクロール私はときNutchのクロール私のサイト私のログにこの例外を参照してください。 Malformed URL: '', skipping (java.net.MalformedURLException: no protocol:
at java.net.URL.<init>(URL.java:567)
at java.net.URL.<init>(URL.
特定の要素をページ応答から削除してから、nutchに渡します。 は具体的には、私はすなわち <div class="noindex">I shall not be indexed</div>
と私のページの一部をマークしたい「私はインデックスを作成してはならない」ように、Nutchの解析の前にそれらを削除したいその後NutchDocumentには存在しません。私は、現在、インデックス内のすべて