SOLRで大量のデータセットをすばやく取得する最もよい方法は何ですか。SOLRで大きなデータセットをすばやく取得する
私は1000万レコード(6文字フィールド)のインデックスを持っています。私が使用しているクエリとフィルタは、270万レコードに設定された結果を取得し、プログラムでページを切り替えて別のプロセスのデータを取得したいと考えています。
現在、私は一度に300000レコードを取得するためにSOLRJとcursorMarkを使用しています。各クエリには15〜20秒かかります。速度を向上させる方法はありますか? 「チャンク」のサイズを小さくすると効果がないようです。 500000に300000を減らす意味は、クエリーを速くしましたが、より多くのものがあり、全体の時間は同等でした。
私が思う問題は、SOLRが2.7milの結果セット全体を取得してから、各呼び出しで必要な間隔をチャンクしなければならないということです。結果セットの「サイズ」と組み合わせると、なぜそれが遅いのか理解できます。私はそれをスピードアップするためのアイデアを探しています。
マイSOLRJコードは以下の通りです:
Solrのバージョン:4.10.2
SolrQuery query = new SolrQuery();
query.setQuery("*:*");
query.setFilterQueries("text:\"*SEARCH STUFF*\"");
query.setParam("fl","id,srfCode");
query.setStart(0);
query.setRows(300000);
query.setSort("sortId", SolrQuery.ORDER.asc);
query.set("cursorMark", "*");
UPDATE 私は "ストリーム" にしようとSolrのうちのデータに次のように試してみました。残念なことに、クエリ自体は依然としてデータを取得するためのボトルネックです。私はそれを持ってすぐに私はそれを迅速に処理することができます。しかし、私はまだデータを取得するためのより速い方法が必要です。
package org.search.builder;
import java.io.IOException;
import java.util.concurrent.BlockingQueue;
import java.util.concurrent.LinkedBlockingQueue;
import org.apache.solr.client.solrj.SolrQuery;
import org.apache.solr.client.solrj.SolrServerException;
import org.apache.solr.client.solrj.StreamingResponseCallback;
import org.apache.solr.client.solrj.impl.HttpSolrServer;
import org.apache.solr.common.SolrDocument;
import org.junit.Test;
public class SolrStream {
long startTime = 0;
long endTime = 0;
@Test
public void streaming() throws SolrServerException, IOException, InterruptedException {
long overallstartTime = System.currentTimeMillis();
startTime = System.currentTimeMillis();
HttpSolrServer server = new HttpSolrServer("https://solrserver/solr/indexname");
SolrQuery tmpQuery = new SolrQuery();
tmpQuery.setQuery("*:*");
tmpQuery.setFilterQueries("text:\"*SEARCH STUFF*\"");
tmpQuery.setParam("fl","id,srfCode");
tmpQuery.setStart(0);
tmpQuery.setRows(300000);
tmpQuery.set("cursorMark", "*");
//Sort needs to be unique or have tie breakers. In this case rowId will never be a duplicate
//If you can have duplicates then you need a tie breaker (sort should include a second column to sort on)
tmpQuery.setSort("rowId", SolrQuery.ORDER.asc);
final BlockingQueue<SolrDocument> tmpQueue = new LinkedBlockingQueue<SolrDocument>();
server.queryAndStreamResponse(tmpQuery, new MyCallbackHander(tmpQueue));
SolrDocument tmpDoc;
do {
tmpDoc = tmpQueue.take();
} while (!(tmpDoc instanceof StopDoc));
System.out.println("Overall Time: " + (System.currentTimeMillis() - overallstartTime) + " ms");
}
private class StopDoc extends SolrDocument {
// marker to finish queuing
}
private class MyCallbackHander extends StreamingResponseCallback {
private BlockingQueue<SolrDocument> queue;
private long currentPosition;
private long numFound;
public MyCallbackHander(BlockingQueue<SolrDocument> aQueue) {
queue = aQueue;
}
@Override
public void streamDocListInfo(long aNumFound, long aStart, Float aMaxScore) {
// called before start of streaming
// probably use for some statistics
currentPosition = aStart;
numFound = aNumFound;
if (numFound == 0) {
queue.add(new StopDoc());
}
}
@Override
public void streamSolrDocument(SolrDocument aDoc) {
currentPosition++;
if (queue.size() % 50000 == 0)
{
System.out.println("adding doc " + currentPosition + " of " + numFound);
System.out.println("Overall Time: " + (System.currentTimeMillis() - startTime) + " ms");
startTime = System.currentTimeMillis();
}
queue.add(aDoc);
if (currentPosition == numFound) {
queue.add(new StopDoc());
}
}
}
}
[エクスポート要求ハンドラを使用する](https://cwiki.apache.org/confluence/display/solr/Exporting+Result+Sets)できるはずです。まだ試していないのであればそれがどのように実行されるかを見てください。これは、Solrの内部でストリーミングAPIなどのバックエンドとして使用されています。 – MatsLindh
エクスポート要求ハンドラの使用例がまったく見つかりませんでした。 Java側やSOLRJ上でどのように使用するかを示すリンクがありますか? ストリーミングの別の方法(質問の更新を参照)を試みましたが、まだ初期クエリによって遅くなっています –
エクスポートコマンドは常にjsonを返します。したがって、http要求を行い、内容を素早くデシリアライズできるはずです。 SolrJは新しいストリーミングAPIを使って同様のことをすることができるかもしれませんが、私はSolrJのその部分に慣れていません。 – MatsLindh