あなたが知っているのは、Luceneの分析機能です。この機能の中心にはAnalyzerクラスがあります。ドキュメントから:
アナライザは、テキストを分析するTokenStreamsを構築します。従って、テキストから索引用語を抽出するための方針を表す。
ありから選択する多くのAnalyzer
のクラスがありますが、StandardAnalyzer
は通常は良い仕事をしていません:
// For each chapter...
Reader reader = ...; // You are responsible for opening a reader for each chapter
Analyzer analyzer = new StandardAnalyzer();
TokenStream tokenStream = analyzer.tokenStream("", reader);
Token token = new Token();
while ((token = tokenStream.next(token)) != null)) {
String keyword = token.term();
// You can now do whatever you wish with this keyword
}
あなたは、他のアナライザは、あなたの目的のために、より良い仕事をすることがあります。
バックナンバーのブックインデックスを作成しようとしていますか?これは一回限りの実行ですか、または時間の経過とともに索引を検索しますか?あなたが意味することの短い例を挙げてください(2つのセクション、それぞれに2つのキーワード、必要な入力と出力)。 –