URL、BODYTEXT、TITLEなどに基づいてインデックスを作成しています。私のコードは動作していますが、正確なURL一致レコードのみが表示されます。たとえば、次のように レコード1: URLます:http://example.com/example/index.php 内容:例はluceneのとBLAのBLAに良いです ホスト:example.com タイトル:例luceneのURLに基づいてレコードを取得する方法
へようこそレコード2: URLます:http://example.com/ 内容:例では、最善の解決策 ホストの一つであり、example.com タイトル:例に歓迎
それは私のURLがhttp://example.com/であるため、レコードのみ2を与えることですだからhttp://example.com/でhttp://example.com/example/index.phpもなので、レコード1とレコード2をURLで取得する方法の部分はhttp://example.com/です。検索用
私のコードは - インデックスを作成する>
Term term = new Term("URL", siteUrl.toLowerCase());
Query query1 = new TermQuery(term);
BooleanQuery booleanQuery.add(query1,BooleanClause.Occur.MUST);
TopDocs hits = is.search(booleanQuery, 50000);
コード
private Document createLuceneDocument(HTMLDocument htmlDocument)
{
Document document = new Document();
document.add(new Field("URL", htmlDocument.getUrl().toLowerCase(), Field.Store.YES,Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));
return document;
}