Lucene Benchmarkを使用してウィキペディアのダンプを索引付けすることは可能ですか?私は、最新の英語のwikipediaページダンプでフレーズクエリを実行できるようにしたい。私はユースケースの例を探してみようとしていますが、何も見つかりませんでした。Luceneを使用してWikipediaを索引する
私は名前の、最新の英語ダンプをダウンロード: enwiki-最新-ページ-articles.xml.bz2
は、それから私は、ターミナルでコマンドを実行しました: Javaのorg.apache.lucene.benchmark.utilsを。 ExtractWikipedia -i〜/ enwiki-最新-ページ-articles.xml.bz2私は今、「enwiki」
をラベルされたディレクトリにページを抽出信じる
は、私が実行する必要がベンチマークで何か他のものがありますwikiのインデックスを作成するには? README.enwikiは実際に私に明確な指示を与えません。実際、ExtractWikipediaクラスを実行するかどうかはわかりません。
この質問は、StackOverflow ServerFaultとSuperUserの間の奇妙な谷にあるようです。 – ObscureRobot