SOLR/LUCENEエキスパート、私はPDFインデックスから簡単なキーワード検索を設計するのに役立ちますか？

私はsolrとお手伝いしましたが、それを私のreuqirementに合わせる方法を見つけられませんでした。SOLR/LUCENEエキスパート、私はPDFインデックスから簡単なキーワード検索を設計するのに役立ちますか？

私が持っているもの：PDFファイルの

束。キーワードのセット。私が達成しようとしています何

：

インデックスPDFファイルを（solrcell - 行なわ）キーワードの検索（作品OK）テーラーPDFファイルの名前を吐き出すための出力、抜粋（抜粋や考え方はありません）

ResponseHandler/Schema.xml/Solrconfig.xmlを無駄に操作しようとしました。

Lucene/solrのエキスパート、私が達成しようとしていることは可能だと思いますか？

は、私はほとんどの分野（すべてのコンテンツが一つのコンテンツフィールドに格納されている）への軽微な変更とSolrのデフォルトの例である（ https://github.com/ThinkCode/solr_search @ githubの上で私の既存のコードを置くのschema.xmlであることに

顕著な変化を。：

のSchema.xml：

<solrQueryParser defaultOperator="AND"/> 

    <field name="id" type="string" indexed="true" stored="true" required="true" /> 

    <field name="content" type="text_general" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/> 

    <dynamicField name="*" type="string" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/> 

<solrQueryParser defaultOperator="AND"/> 

<copyField source="*" dest="content"/>

電流出力：

（クエリ） http://localhost:8983/solr/select/?q=Java+Servlet&version=2.2&start=0&rows=10&indent=on

<response><lst name="responseHeader"><int name="status">0</int><int name="QTime">13</int><lst name="params"><str name="indent">on</str><str name="start">0</str><str name="q">Java Servlet</str><str name="version">2.2</str><str name="rows">10</str></lst></lst> 

<result name="response" numFound="1" start="0"><doc><arr name="content_type"><str>application/pdf</str></arr><str name="id">tutorial.pdf</str><str name="subject">Solr</str><arr name="title"><str>Solr tutorial</str></arr></doc></result></response>

私は 'キーワードが発見された抽出された断片（ライン）' を探しています。

提供されたクエリでは、「Java Servlet」を検索してドキュメントを返しました。私は、「Solrは任意のJavaサーブレットコンテナで実行できます」というコンテキストに興味があり、出力XMLで返されます。（それは文字列フィールドである必要があり、単純にその情報を持つフィールドを追加し、応答の一部としてインデックス付きPDFのファイル名を取得するにはhttp://wiki.apache.org/solr/HighlightingParameters

を参照して、マッチしたキーワードを中心にテキストのスニペットを取得するには

出典

2011-08-02 ThinkCode

はい、可能です。これまでのことや、具体的にどこに問題があるのかを投稿できますか？ –

私はコードをgithub @ https://github.com/ThinkCode/solr_searchに置き、スキーマファイルはhttps://github.com/ThinkCode/solr_search/blob/master/apachesolr330/example/solr/conf/schemaにあります。 .xml – ThinkCode

私は失礼ではありませんが、これよりもはるかに具体的でなければなりません。そうでなければ、 "plzは私にcodezを送って/無料で仕事をします"ようこそstackoverflow。 –

、非インデックスされ、保存される）。もちろん、インデックス時にこの新しいフィールドに値を設定する必要があります。これは、キーワードが発見されたPDFファイル内の対応するページへのリンクを含むHTMLファイルを作成します* https://github.com/WolfgangFahl/pdfindexer ：PDFボックスとApache Luceneのを使用して

出典

2011-08-03 00:07:20

スタンドアロンソリューションは、で入手可能です。

出典

2013-05-12 07:24:31

SOLR/LUCENEエキスパート、私はPDFインデックスから簡単なキーワード検索を設計するのに役立ちますか？

答えて

関連する問題