2011-08-05 4 views
2

NutchとSolrを使用してファイル共有をインデックスしています。nutch solrindexコマンドの後にSolrインデックスが空になる

私は最初の問題:ビン/ NutchのクロールのURL

私を与える:

solrUrl is not set, indexing will be skipped... 
crawl started in: crawl-20110804191414 
rootUrlDir = urls 
threads = 10 
depth = 5 
solrUrl=null 
Injector: starting at 2011-08-04 19:14:14 
Injector: crawlDb: crawl-20110804191414/crawldb 
Injector: urlDir: urls 
Injector: Converting injected urls to crawl db entries. 
Injector: Merging injected urls into crawl db. 
Injector: finished at 2011-08-04 19:14:16, elapsed: 00:00:02 
Generator: starting at 2011-08-04 19:14:16 
Generator: Selecting best-scoring urls due for fetch. 
Generator: filtering: true 
Generator: normalizing: true 
Generator: jobtracker is 'local', generating exactly one partition. 
Generator: Partitioning selected urls for politeness. 
Generator: segment: crawl-20110804191414/segments/20110804191418 
Generator: finished at 2011-08-04 19:14:20, elapsed: 00:00:03 
Fetcher: Your 'http.agent.name' value should be listed first in 'http.robots.agents' property. 
Fetcher: starting at 2011-08-04 19:14:20 
Fetcher: segment: crawl-20110804191414/segments/20110804191418 
Fetcher: threads: 10 
QueueFeeder finished: total 1 records + hit by time limit :0 
-finishing thread FetcherThread, activeThreads=9 
-finishing thread FetcherThread, activeThreads=8 
-finishing thread FetcherThread, activeThreads=7 
-finishing thread FetcherThread, activeThreads=6 
-finishing thread FetcherThread, activeThreads=5 
-finishing thread FetcherThread, activeThreads=4 
-finishing thread FetcherThread, activeThreads=3 
-finishing thread FetcherThread, activeThreads=2 
-finishing thread FetcherThread, activeThreads=1 
fetching file:///mnt/public/Personal/Reminder Building Security.htm 
-finishing thread FetcherThread, activeThreads=0 
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0 
-activeThreads=0 
Fetcher: finished at 2011-08-04 19:14:22, elapsed: 00:00:02 
ParseSegment: starting at 2011-08-04 19:14:22 
ParseSegment: segment: crawl-20110804191414/segments/20110804191418 
ParseSegment: finished at 2011-08-04 19:14:23, elapsed: 00:00:01 
CrawlDb update: starting at 2011-08-04 19:14:23 
CrawlDb update: db: crawl-20110804191414/crawldb 
CrawlDb update: segments: [crawl-20110804191414/segments/20110804191418] 
CrawlDb update: additions allowed: true 
CrawlDb update: URL normalizing: true 
CrawlDb update: URL filtering: true 
CrawlDb update: Merging segment data into db. 
CrawlDb update: finished at 2011-08-04 19:14:24, elapsed: 00:00:01 
Generator: starting at 2011-08-04 19:14:24 
Generator: Selecting best-scoring urls due for fetch. 
Generator: filtering: true 
Generator: normalizing: true 
Generator: jobtracker is 'local', generating exactly one partition. 
Generator: 0 records selected for fetching, exiting ... 
Stopping at depth=1 - no more URLs to fetch. 
LinkDb: starting at 2011-08-04 19:14:25 
LinkDb: linkdb: crawl-20110804191414/linkdb 
LinkDb: URL normalize: true 
LinkDb: URL filter: true 
LinkDb: adding segment: file:/home/nutch/nutch-1.3/runtime/local/crawl-20110804191414/segments/20110804191418 
LinkDb: finished at 2011-08-04 19:14:26, elapsed: 00:00:01 
crawl finished: crawl-20110804191414 

次にI:ビン/ Nutchのsolrindex http://localhost:8983/solr/クロール-20110804191414/crawldbクロール-20110804191414/linkdbクロール-20110804191414 /セグメント/ *

私を与える:

SolrIndexer: starting at 2011-08-04 19:17:07 
SolrIndexer: finished at 2011-08-04 19:17:08, elapsed: 00:00:01 

私は行うと:私が得るSolrの上問い合わせ:

<response> 
    <lst name="responseHeader"> 
      <int name="status">0</int> 
      <int name="QTime">2</int> 
      <lst name="params"> 
       <str name="indent">on</str> 
       <str name="start">0</str> 
       <str name="q">*:*</str> 
       <str name="version">2.2</str> 
       <str name="rows">10</str> 
      </lst> 
    </lst> 
    <result name="response" numFound="0" start="0"/> 
</response> 

:(

注これは私がウェブサイトをクロールするプロトコルのHTTPを使用しようとしたときにうまく働いたが、動作しないことを私にprotocol-fileを使用してファイルシステムをクロールします。

--- EDIT --- 今日もう一度試してみると、名前にスペースが含まれているファイルが404エラーを引き起こしていることがわかりました。それは私がインデックスを作成している共有上のたくさんのファイルです。しかし、thumbs.dbファイルはokで作成していました。これは、問題は私がそれと思ったものではないことを私に伝えます。

+0

に私のビデオを参照してください。私はまた、セグメントのダンプを行なったし、そのPDFのテキストコンテンツは、それは私がこれを必要とするものだからGREATである、インデックスが作成されていました。私はsolrがすべてのデータで更新されていない理由を理解できません。 –

+0

私はまた、1つの単語に名前が変更された単一のpdfファイルのインデックス作成を試みました。セグメントデータはそこにあり、テキストは解析されますが、検索結果はbin/nutch solrindexを実行した後にsolrに表示されません。 –

+0

まだこの問題を解決できませんでした。私はこの問題に関してApacheに問題を開いた。少なくとも1人の開発者が割り当てられているようです: https://issues.apache.org/jira/browse/NUTCH-1076 –

答えて

0

私は今日、あなたのステップをたどってきました。私は最終的に/opt/nutch/src/java/org/apache/nutch/indexer/IndexerMapReduce.javaのprintfデバッグに頼っていました。これは、インデックスを作成しようとしていた各URLがfile:///var/www/Engineering /というように、私が最初に指定したように、一度はfile:/ u/u60/Engineering /で始まります。このシステムでは、/ var/www/Engineeringは/ u/u60/Engineeringへのシンボリックリンクです。さらに、fetchDatumフィールドが指定されていないため、parseTextフィールドが指定されておらず、/ u/u60 /エンジニアリングURLが拒否されたため、/ var/www /エンジニアリングURLは拒否されました。/u/u60/Engineeringフォームの元のURLを指定すると、私の問題が解決されました。この状況で次の樹液を助けることを望みます。

関連する問題