私は200M +文書のsolrインスタンスを持っています。私は、これらのすべての文書を効率的に反復処理する方法を見つけたいと思います。solrのすべての文書を繰り返します。
私は、クエリのリストを定式化するために、開始パラメータを使用してみました:
http://ip:port/solr/docs/select?q=*:*&start=0&rows=1000000&fl=content&wt=python
http://ip:port/solr/docs/select?q=*:*&start=1000000&rows=1000000&fl=content&wt=python
...
しかし、スタートが高すぎるとき、それは非常に遅いです。
私もこのような最初のクエリでcursorMarkパラメータを使用してみました:私は最初にすべての文書をソートし、サーバーをクラッシュしようと考えてい
http://ip:port/solr/docs/select?q=*:*&cursorMark=*&sort=id+asc&start=0&rows=1000000&fl=content&wt=python
。悲しいことに私はその種類を迂回することはできないと思います。それを行う適切な方法は何でしょうか?
ソートパラメータを削除しようとしましたか? – femtoRgon
ソートパラメータは必須と思われますが、削除しようとすると不正なリクエストエラーが発生します。 – user3091275
さて、おそらくあなたは_docid_(つまり、 'sort = _docid_ + asc、+ id + asc')でソートを試みることができます。私のケースでは、小さなページ(行が少ない)を – femtoRgon