2011-10-23 4 views
1

Lucene Benchmarkを使用してウィキペディアのダンプを索引付けすることは可能ですか?私は、最新の英語のwikipediaページダンプでフレーズクエリを実行できるようにしたい。私はユースケースの例を探してみようとしていますが、何も見つかりませんでした。Luceneを使用してWikipediaを索引する

私は名前の、最新の英語ダンプをダウンロード: enwiki-最新-ページ-articles.xml.bz2

は、それから私は、ターミナルでコマンドを実行しました: Javaのorg.apache.lucene.benchmark.utilsを。 ExtractWikipedia -i〜/ enw​​iki-最新-ページ-articles.xml.bz2私は今、「enwiki」

をラベルされたディレクトリにページを抽出信じる

は、私が実行する必要がベンチマークで何か他のものがありますwikiのインデックスを作成するには? README.enwikiは実際に私に明確な指示を与えません。実際、ExtractWikipediaクラスを実行するかどうかはわかりません。

+2

この質問は、StackOverflow ServerFaultとSuperUserの間の奇妙な谷にあるようです。 – ObscureRobot

答えて

1

"ant"を実行してください。私はLuceneのメーリングリストにもっと徹底的な答えを投稿しましたが、それは基本的にその要点です。 build.xmlファイルには、ベンチマークを実行するためのターゲットが多数あります。

+0

Luceneメーリングリストにあなたの答えへのリンクを追加するか、ここに回答を貼り付けることができますか?私はこの解決方法を試したいが、指示はない。 – anthonybell

+0

2011年の古いスレッドへのリンクは次のとおりです。http://markmail.org/thread/qhkh7lyxff77kskr YMMV Luceneがその後多くの変更を行って以来、まだ解決策が有効かどうかはわかりません。 –

0

ウィキメディア財団は、DiffDbという新しいプロジェクトに取り組んでいます。 Hadoopを使用して、2つのリビジョン間の差分を作成し、それらの差分はすべてLuceneを使用して索引付けされます。など、https://github.com/whym/diffindexer

だけで英語版ウィキペディアの結果のインデックスが1.4Tbですが、あなたは本当にクールなクエリを行うことができます。

  • Wikihadoop:https://github.com/whym/wikihadoop
  • DiffDbあなたはgithubのにコードを見つけることができます2005年4月にfooを追加した人、バイトで10k以上を削除した人など