2010-12-01 7 views
3

私は別のフォルダに多くのテキストファイルをインデックスできるプログラムを作成しています。つまり、テキストファイルがインデックスに登録されているすべてのフォルダとインデックスが別のフォルダに格納されているということです。この別のフォルダは、コンピュータ内のすべてのファイルのユニバーサルインデックスのように動作します。私はこれを達成するためにluceneを使用しています。なぜなら、luceneは増分更新を完全にサポートしているからです。これは私が索引付けに使用するソースコードです。luceneのインクリメンタルアップデートに関する問題

public class SimpleFileIndexer { 


public static void main(String[] args) throws Exception { 

    int i=0; 
    while(i<2) { 
    File indexDir = new File("C:/Users/Raden/Documents/myindex"); 
    File dataDir = new File("C:/Users/Raden/Documents/indexthis"); 
    String suffix = "txt"; 

    SimpleFileIndexer indexer = new SimpleFileIndexer(); 

    int numIndex = indexer.index(indexDir, dataDir, suffix); 

    System.out.println("Total files indexed " + numIndex); 
    i++; 
    Thread.sleep(1000); 

    } 
} 


private int index(File indexDir, File dataDir, String suffix) throws Exception { 
    RAMDirectory ramDir = new RAMDirectory();   // 1 
    @SuppressWarnings("deprecation") 
    IndexWriter indexWriter = new IndexWriter(
      ramDir,         // 2 
      new StandardAnalyzer(Version.LUCENE_CURRENT), 
      true, 
      IndexWriter.MaxFieldLength.UNLIMITED); 
    indexWriter.setUseCompoundFile(false); 
    indexDirectory(indexWriter, dataDir, suffix); 
    int numIndexed = indexWriter.maxDoc(); 
    indexWriter.optimize(); 
    indexWriter.close(); 

    Directory.copy(ramDir, FSDirectory.open(indexDir), false); // 3 

    return numIndexed; 
} 


private void indexDirectory(IndexWriter indexWriter, File dataDir, String suffix) throws IOException { 
    File[] files = dataDir.listFiles(); 
    for (int i = 0; i < files.length; i++) { 
     File f = files[i]; 
     if (f.isDirectory()) { 
      indexDirectory(indexWriter, f, suffix); 
     } 
     else { 
      indexFileWithIndexWriter(indexWriter, f, suffix); 
     } 
    } 
} 

private void indexFileWithIndexWriter(IndexWriter indexWriter, File f, String suffix) throws IOException { 
    if (f.isHidden() || f.isDirectory() || !f.canRead() || !f.exists()) { 
     return; 
    } 
    if (suffix!=null && !f.getName().endsWith(suffix)) { 
     return; 
    } 
    System.out.println("Indexing file " + f.getCanonicalPath()); 

    Document doc = new Document(); 
    doc.add(new Field("contents", new FileReader(f)));  
doc.add(new Field("filename", f.getCanonicalPath(), Field.Store.YES, Field.Index.ANALYZED)); 
    indexWriter.addDocument(doc); 
} } 

、これは私が今持っています問題は、私は上記で作成したインデックスプログラムは、いずれかの操作を行うことができないように見えるということです私はluceneの-作成したインデックス

public class SimpleSearcher { 

public static void main(String[] args) throws Exception { 

    File indexDir = new File("C:/Users/Raden/Documents/myindex"); 
    String query = "revolution"; 
    int hits = 100; 

    SimpleSearcher searcher = new SimpleSearcher(); 
    searcher.searchIndex(indexDir, query, hits); 

} 

private void searchIndex(File indexDir, String queryStr, int maxHits) throws Exception { 

    Directory directory = FSDirectory.open(indexDir); 

    IndexSearcher searcher = new IndexSearcher(directory); 
    @SuppressWarnings("deprecation") 
    QueryParser parser = new QueryParser(Version.LUCENE_30, "contents", new StandardAnalyzer(Version.LUCENE_CURRENT)); 
    Query query = parser.parse(queryStr); 

    TopDocs topDocs = searcher.search(query, maxHits); 

    ScoreDoc[] hits = topDocs.scoreDocs; 
    for (int i = 0; i < hits.length; i++) { 
     int docId = hits[i].doc; 
     Document d = searcher.doc(docId); 
     System.out.println(d.get("filename")); 
    } 

    System.out.println("Found " + hits.length); 

} 

} 

を検索するために使用したソースコードであります増分更新。私はテキストファイルを検索することができますが、すでにインデックスを作成した最後のフォルダに存在するファイルのみを検索することができます。既にインデックスを作成していた以前のフォルダは検索結果に表示されず、 。私のコードで何が間違っているのか教えていただけますか?私はちょうど私のソースコードで増分更新機能を持つことができるようにしたかった。つまり、私のプログラムは、既存のインデックスをマージする代わりに新しいインデックスで上書きしているようです。

おかげ

答えて

1

Directory.copy()先ディレクトリを上書きしても、あなたはメインの一つに新しいディレクトリインデックスをマージするIndexWriter.addIndexes()を使用する必要があります。

メインインデックスをもう一度開いて、直接ドキュメントを追加することもできます。 RAMDirectoryは、適切に調整されたバッファおよびマージファクタ設定(IndexWriterドキュメントを参照)よりも必ずしも効率的ではありません。

更新:代わりにDirectory.copy()のあなたは書き込みのために読書のためのramDirindexDirを開き、indexDirライターに.addIndexesを呼び出し、それをramDir読者を渡す必要があります。または、.addIndexesNoOptimizeを使用してramDirを直接(リーダーを開かずに)渡して、インデックスを最適化してから閉じることができます。

本当にRAMDirをスキップして最初にindexDirの作家を開く方が簡単でしょう。変更されたファイルも簡単に更新できるようになります。

private int index(File indexDir, File dataDir, String suffix) throws Exception { 
    RAMDirectory ramDir = new RAMDirectory(); 
    IndexWriter indexWriter = new IndexWriter(ramDir, 
     new StandardAnalyzer(Version.LUCENE_CURRENT), true, 
     IndexWriter.MaxFieldLength.UNLIMITED); 
    indexWriter.setUseCompoundFile(false); 
    indexDirectory(indexWriter, dataDir, suffix); 
    int numIndexed = indexWriter.maxDoc(); 
    indexWriter.optimize(); 
    indexWriter.close(); 


    IndexWriter index = new IndexWriter(FSDirectory.open(indexDir), 
     new StandardAnalyzer(Version.LUCENE_CURRENT), true, 
     IndexWriter.MaxFieldLength.UNLIMITED); 
    index.addIndexesNoOptimize(ramDir); 
    index.optimize(); 
    index.close(); 

    return numIndexed; 
} 

しかし、これだけでは細かすぎる:

private int index(File indexDir, File dataDir, String suffix) throws Exception { 

    IndexWriter index = new IndexWriter(FSDirectory.open(indexDir), 
     new StandardAnalyzer(Version.LUCENE_CURRENT), true, 
     IndexWriter.MaxFieldLength.UNLIMITED); 

    // tweak the settings for your hardware 
    index.setUseCompoundFile(false); 
    index.setRAMBufferSizeMB(256); 
    index.setMergeFactor(30); 

    indexDirectory(index, dataDir, suffix); 

    index.optimize(); 
    int numIndexed = index.maxDoc(); 
    index.close(); 

    // you'll need to update indexDirectory() to keep track of indexed files 
    return numIndexed; 
} 
+0

あなただけの変更の必要がどのラインを見せてhere.can私は少し損失のですか?私はあなたがそれを編集して私にとっては明らかになることを意味します。 :-) – jacobian

+0

はい、ありがとうございます。 :-) – jacobian