2016-07-22 7 views
4

はNutchのニュースによると、Nutchのの最新バージョンは、Solrのの非常に古いバージョンでのSolr 4.10.3との互換性が2.3.1です。Solrの6とNutchは2.3.1統合

Solr 6とNutch 2.3.1を統合できますか? solr 6を統合する場合の欠点は何ですか?誰でもこれを試した?

+0

Nutchのは、それがで必要なすべてのフィールドを持つのschema.xmlが含まれています

(これはおそらく、Nutchの2のためにわずかに異なっている)今すぐクロールスクリプトを実行することができ、成功した私たちの最先端のSolrに書き込みます$ NUTCH_HOME \ conf \ schema.xmlにあります。 11ヶ月前にSolr 4.10.2へのアップグレードは、私は、ブラウザのUIに次の例外を取得していますhttps://github.com/apache/nutch/commit/a67cbc7d99c3b4172e690408f0abc54a098348bc – rleir

答えて

9

これは古い質問ですが、Nutch 1.12がSolr 6.3.0と話しています。必要なスキーマ/ solrconfigの変更はので、ここでNutchの2.xのための同じである必要があり、私がやったことだ:

ダウンロードして、例えば、いくつかのディレクトリに両方の製品を抽出〜/ mycrawler、そしてSolrのディレクトリに移動して、Nutchのためにコアを作成します。これは、スキーマなどが配置されてSolr-6.3.0 /サーバー/ Solrの/ Nutchのを作成します

solr-6.3.0/bin $ ./solr start 
solr-6.3.0/bin $ ./solr create_core -c nutch -d basic_configs 
solr-6.3.0/bin $ ./solr stop 

solr-6.3.0/server/solr/nutch/conf $ rm managed-schema 
solr-6.3.0/server/solr/nutch/conf $ cp ~/mycrawler/apache-nutch-1.12/conf/schema.xml . 

今のschema.xmlを編集し、すべての<filter class="solr.StopFilterFactory" ignoreCase="true" ...定義でenablePositionIncrements="true"のすべてのインスタンスを削除します。今、私たちは、新しい自動管理スキーマ定義を削除し、Nutchの提供のschema.xmlと交換する必要があります。 solr-6.3.0/server/solr/nutch/conf/solrconfig.xmlでも

、あなたが得るので、これらのtypeMappingブロックコメント:

<processor class="solr.AddSchemaFieldsUpdateProcessorFactory"> 
    <str name="defaultFieldType">strings</str> 
    <!-- 
    <lst name="typeMapping"> 
    <str name="valueClass">java.lang.Boolean</str> 
    <str name="fieldType">booleans</str> 
    </lst> 
    <lst name="typeMapping"> 
    <str name="valueClass">java.util.Date</str> 
    <str name="fieldType">tdates</str> 
    </lst> 
    <lst name="typeMapping"> 
    <str name="valueClass">java.lang.Long</str> 
    <str name="valueClass">java.lang.Integer</str> 
    <str name="fieldType">tlongs</str> 
    </lst> 
    <lst name="typeMapping"> 
    <str name="valueClass">java.lang.Number</str> 
    <str name="fieldType">tdoubles</str> 
    </lst> 
    --> 
</processor> 

今すぐサーバを再起動します。

solr-6.3.0/bin $ ./solr start 

あなたが管理GUIに行けば、それはコアを示すべきそれ以上のスキーマの問題はなくなり始めました。

./crawl -i \ 
    -D solr.server.url=http://localhost:8983/solr/nutch \ 
    ~/mycrawler/nutch_work/seed \ 
    ~/mycrawler/nutch_work/crawl \ 
    1 
+1

です。何か案が? 'org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:コアNutchのためのconfをロードできませんでした:スキーマ/server/solr/nutch/conf/schema.xmlをロードできません:プラグインエラーインスタンス化クラス::[schema.xmlを]アナライザ/フィルタの初期化失敗あなたはStopFilterFactory定義で= 『true』をenablePositionIncrementsの1を削除し忘れたように「org.apache.lucene.analysis.core.StopFilterFactory'' –

+3

が鳴ります。 .. schema.xml全部にたくさんのものがあります。 –

+0

正確に...解決済み。 –

関連する問題