2011-12-15 14 views
0

を私はNutchの1.3でサイトをクロール私はときNutchのクロール私のサイト私のログにこの例外を参照してください。不正なURL: ''、スキップ(java.net.MalformedURLException

Malformed URL: '', skipping (java.net.MalformedURLException: no protocol: 
at java.net.URL.<init>(URL.java:567) 
at java.net.URL.<init>(URL.java:464) 
at java.net.URL.<init>(URL.java:413) 
at org.apache.nutch.crawl.Generator$Selector.reduce(Generator.java:247) 
at org.apache.nutch.crawl.Generator$Selector.reduce(Generator.java:109) 
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:463) 
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) 
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216) 

どのようにすることができます私はこれを解決する?助けて。

答えて

2

文書によれば、 "不正なURLが発生したことを示すためにMalformedURLExceptionがスローされます。指定された文字列に正当なプロトコルが見つからないか、文字列を解析できませんでした。

ここで留意すべきことは、サーバーがダウンしているか、パスが不足しているファイルを指しているときにこの例外がスローされないことです。これは、URLを解析できない場合にのみ発生します。

このエラーは、プロトコルがであることを示すがないことを示します。また、クローラは任意のURL、

不正な形式のURLが表示されません。「」は、(java.net.MalformedURLExceptionをスキップ:なしプロトコル:ここ

は私が出会った興味深い記事、見http://www.symphonious.net/2007/03/29/javaneturl-or-javaneturi/を持っているが

あなたが解析しようとしている正確なURLとは何ですか

1

regex-urlfilter.txtseed.txtですべての設定を設定した後、このコマンドを実行してください:?

./nutch plugin protocol-file org.apache.nutch.protocol.file.File file:\\\e:\\test.html 

(私の例ではファイルがe:\test.htmにある場合)。この前

は、私はいつもこの

./nutch plugin protocol-file org.apache.nutch.protocol.file.File \\\e:\test.html 

を実行し、プロトコルfile:が欠けていたため、このエラーを得た:

java.netMalformedURLException:なしプロトコル:\\ E:\テストを。 HTMLは

0
Malformed URL: '' 

URLの代わりに空であったことを意味しますhttp://www.google.comのようなものです。

関連する問題