2017-10-27 11 views
0

私は実行中です。ビン/ Nutchのを実行しているとき、私は次のエラーを取得する:ナッチインデクサーFileNotFoundException:データが存在しません

Indexer: java.io.FileNotFoundException: File file:/opt/nutch/crawl/linkdb/current/linkdb-merge-1124746471/data does not exist. 
at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:402) 
at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:255) 
at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:47) 
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208) 
at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:1081) 
at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1073) 
at org.apache.hadoop.mapred.JobClient.access$700(JobClient.java:179) 
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:983) 
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936) 
at java.security.AccessController.doPrivileged(AccessController.java:488) 
at javax.security.auth.Subject.doAs(Subject.java:572) 
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190) 
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936) 
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910) 
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353) 
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:114) 
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:176) 
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:186) 

だから、と文句を言います。/ opt/Nutchの/クロール/ linkdb /現在/ linkdbマージ-1124746471 /データが存在しません。 ただし、/ opt/nutch/crawl/linkdb/current/linkdb-merge-1124746471/part00000/dataは存在します。 どのようにこのような不一致が起こりますか?つまり、インデクサーが前の手順で作成したファイルを見つけることができるように、インデックス作成プロセスをどこで設定できますか?

ご意見やご感想をお寄せください。

答えて

0

フォルダ.../linkdb/current/linkdb-merge-1124746471/を削除する必要があります。これは、 "invertlinks"または "mergelinkdb"ジョブの一時フォルダです。正しい場所にはありません:.../linkdb/linkdb-merge-1124746471/でなければなりません。これは、の代わりに.../linkdb/current/でジョブが呼び出された場合に発生する可能性があります。これは、linkdbの名前の制限がないためです。

+0

実際、私は両方のディレクトリの内容を空にしました:linkdbとcrawldbは、再びnutchを実行し、今回は意図したとおりに動作しました。ありがとう! – user3027595

関連する問題