2012-03-31 4 views
0

実行しようとしていますApache Nutchから実行しています。私はhttp://wiki.apache.org/nutch/RunNutchInEclipseの指示に従った。しかし、 "parse-html"(javaとtestの両方)のソースにはエラーがあります。私はとにかくそれを実行し、それがこのエラーを読み取り、URLのseed.txtからとリターンをフェッチ:EclipseのNutchエラー

Fetcher: finished at 2012-03-31 17:21:56, elapsed: 00:00:07 
ParseSegment: starting at 2012-03-31 17:21:56 
ParseSegment: segment: crawl/segments/20120331172142 
Exception in thread "main" java.io.IOException: Job failed! 

私は私の目標は、Nutchのからインデックスを取得することであることを指摘したいと、それらを格納しますMongoDB

+0

私はNutchのドキュメントが最新であるかどうかわからないです。 Linux(またはVM)に向かい、解決してください。たとえあなたがこの問題を解決することができたとしても、ウインドウをつけておけば、もっと先を手に入れられるでしょう。 –

+0

私はすでにUbuntuで働いています。手伝ってくれてありがとう。 –

答えて

0

私は3つのジャーを見つけて、それらを外部ジャーとしてプロジェクトに追加しました。これらの瓶はcyberneko.jar,rome-0.9.jartagsoup-1.2.jarであり、すべて簡単なGoogle検索で見つけることができます。

0

同じ問題が発生しました。

  • DEBUGメッセージを報告するためにconf/log4j.propertiesファイルを変更します。
  • 通常は$ NUTCH_HOMEまたは$ NUTCH_HOME/logsにあるhadoop.logファイルを読んでください。

これらのメッセージを調べることで、問題を特定できるはずです。

Eclipseで実行中のチュートリアルで、いくつかのエラー処理についても説明しています。

1

ivy.xmlに以下を追加します。

<dependency org="rome" name="rome" rev="0.9" /> 
<dependency org="net.sourceforge.nekohtml" name="nekohtml" rev="1.9.13" /> 
<dependency org="org.ccil.cowan.tagsoup" name="tagsoup" rev="1.2.1" />