2012-04-03 6 views
0

WikipediaのxmlファイルをSolrにインデックスしたいと思います。.xml形式のwikipediaファイルをsolrにインデックスする方法

エラーが発生していますが、インデックスに登録できません。 Solrには、xmlファイル用の特定の形式があります。私はschema.xmldata-config.xmlファイルをwikipediaファイルのタグに合わせて変更しました。

まだファイルをインデックスに登録できません。私の実際の目的は、30 GBのxmlファイルであるwikipediaを索引付けすることです。

すべてのウィキペディアファイルをSolrにインデックスする方法は?

+0

私はこのリンクで同じ問題を解決しました。http://stackoverflow.com/questions/20473798/indexing-wikipedia-with-solr 私はそれが助けてくれることを願っています。 – Marcelo

答えて

1

There's an example section in the DataImportHandler documentation for exactly this: indexing Wikipedia.

基本的に、あなたはウィキペディアのXMLのうち、気にメタデータを引き出し、そしてフラットSolrのフィールドのリストにそれを置くためにDataImportHandlerといくつかのXPathを使用します。

+0

私は試しましたが、うまくいきません....ファイルはコミットされますが、ファイルを検索するとファイルが見つかりません –

+2

ファイルはそこにありますか? '*:*'を検索するとどうなりますか? –

+0

検索すると、*:*の検索結果も表示されません。何もインデックスが作成されていないので、 –

関連する問題