複数のドキュメントの索引付けと一意のsolr idへのマッピング

私の使用例は、メタデータ・ファイルとバイナリPDFファイルの2つのファイルを一意のsolr idに索引付けすることです。メタデータファイルはXMLファイルの形式でコンテンツを持ち、一部のスキーマフィールドはそのXMLファイル内の要素にマップされます。複数のドキュメントの索引付けと一意のsolr idへのマッピング

私の行うこと：PDFファイル（pdftotextを使用）からコンテンツを抽出し、そのコンテンツを処理して特定の情報を取得します（例：PDFの最初のページ/行には、検索された情報（医学/研究段階）は索引付けされる必要があり、検索/分類/ファセットを可能にする必要があります。

情報を取得してXMLファイルを作成できます（これをメタデータファイルと呼びます）。今では私のスキーマが

と仮定して

<field name="medicine" type="text" stored="true" indexed="true"/> 
<field name="researchStage". ../>

このメタデータファイルとPDFファイルをSolrに入れる方法はありますか？私が試してみました何

：アーカイブ内の提案に基づいて

を、私はこれらのファイルを圧縮し、ExtractRequestHandlerに与えました。私はすべてのコンテンツをSOLRに入れて検索可能にしました。しかし、zipファイルの内容として表示されます（この作業を行うためには、Solrコードベースにいくつかのパッチを適用する必要がありました）。しかし、メタデータファイルの内容がフィールド名にマッピングされていないため、これでは不十分です。カールは "http：// localhostを：？8983/Solrの/更新/抽出literal.id = DOC1 & =真コミット" 私はDataImportHandlerで動作するようにしようとした-F "[email protected]"
を（binURLdatasource ）。しかし、私はそれがどのように機能するのか分かりません。だから遠くに行くことができなかった。
私は、PDF自体にメタデータタグを追加することを考えました。これを行うには、ExtractrequestHandlerがこのメタデータを処理する必要があります。私はそれもどちらか分かりません。私は "pdftk"を使ってメタデータを追加しようとしました。カスタムタグを追加できませんでした。それはタイトル/著者/キーワードなどを更新/追加するだけです。誰も似たようなUnixツールを知っていますか？

誰かがヒントを持っている場合は、共有してください。 1つのファイルを作成しないようにしたい（PDFテキストとメタデータファイルをマージする）。以下のようなファイルrecord1234.pdfとメタデータが与えられ

出典

2012-03-04 nitin khosla

Solrを使用してPDFファイルのインデックスを作成するか、PDFファイルの* content *をSolrインデックスに実際に追加することを意味しますか？ –

：

<metadata> 
<field1>value1</field1> 
<field2>value2</field2> 
<field3>value3</field3> 
</metadata>

は

curl "http://localhost:8983/solr/update/extract? 
literal.id=record1234.pdf 
&literal.field1=value1 
&literal.field2=value2 
&literal.field3=value3 
&captureAttr=true&defaultField=text&capture=div&fmap.div=foo_txt&boost.foo_txt=3&" -F "[email protected]"

http://wiki.apache.org/solr/ExtractingRequestHandler#Literalsから適応

のプログラムと同等の操作を行います。

これにより、Tika/Solr CELの出力textと指定したフィールドを含む索引に新しい項目が作成されます。

これらの操作は、ご使用の言語で実行する必要があります。

彼らはその後、動的なフィールドを使用して、事前に定義されたフィールドにマッピングいけない場合は、メタデータファイルの内容は、フィールド名

にマップされていません。たとえば、*_iを整数フィールドに設定できます。

1ファイルの作成を避けたい（PDFテキストとメタデータファイルをマージして）。

これはプログラマーの疲れのように見えます.-)しかし、あなたは良い理由がありますか？

出典

2012-03-05 13:34:52 aitchnyu

複数のドキュメントの索引付けと一意のsolr idへのマッピング

答えて

関連する問題