2
私はApache Solrを使い慣れていないので、pdfファイルの索引作成に使用したいと考えています。私はそれを手に入れてこれまで走っていたので、追加されたpdfファイルを検索できるようになりました。Apache Solrで抽出されたテキストを取得する
しかし、結果から検索したテキストを取得できる必要があります。
私はまさにそれに関するデフォルトsolrconfig.xmlでのXMLスニペットを見つけました:
<requestHandler name="/update/extract" class="org.apache.solr.handler.extraction.ExtractingRequestHandler" startup="lazy">
<lst name="defaults">
<!-- All the main content goes into "text"... if you need to return
the extracted text or do highlighting, use a stored field. -->
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
私はここ(http://www.lucidimagination.com/Community/Hearから得るものから私は、 "true"とindexed = "true"を格納しているschema.xml(例えば、 "content")に新しいフィールドを追加しなければならないと思う。しかし、私はこれを正確に達成する方法が本当にわからないのですか?
任意のヘルプ感謝、THX
私はちょうどそれを管理しているようだ、私は "テキスト"フィールドの "保存"プロパティを "true"に設定した。 – DeX3
奇妙な事実:クエリに関係なく、結果には常にインデックス付きPDFのメールアドレスが含まれていますか? – DeX3