私の使用例は、メタデータ・ファイルとバイナリPDFファイルの2つのファイルを一意のsolr idに索引付けすることです。メタデータファイルはXMLファイルの形式でコンテンツを持ち、一部のスキーマフィールドはそのXMLファイル内の要素にマップされます。複数のドキュメントの索引付けと一意のsolr idへのマッピング
私の行うこと:PDFファイル(pdftotextを使用)からコンテンツを抽出し、そのコンテンツを処理して特定の情報を取得します(例:PDFの最初のページ/行には、検索された情報(医学/研究段階)は索引付けされる必要があり、検索/分類/ファセットを可能にする必要があります。
情報を取得してXMLファイルを作成できます(これをメタデータファイルと呼びます)。今では私のスキーマが
と仮定して<field name="medicine" type="text" stored="true" indexed="true"/>
<field name="researchStage". ../>
このメタデータファイルとPDFファイルをSolrに入れる方法はありますか?私が試してみました何
:アーカイブ内の提案に基づいて
を、私はこれらのファイルを圧縮し、ExtractRequestHandlerに与えました。私はすべてのコンテンツをSOLRに入れて検索可能にしました。しかし、zipファイルの内容として表示されます(この作業を行うためには、Solrコードベースにいくつかのパッチを適用する必要がありました)。しかし、メタデータファイルの内容がフィールド名にマッピングされていないため、これでは不十分です。 カールは "http:// localhostを:?8983/Solrの/更新/抽出literal.id = DOC1 & =真コミット" 私はDataImportHandlerで動作するようにしようとした-F "[email protected]"
を(binURLdatasource )。しかし、私はそれがどのように機能するのか分かりません。だから遠くに行くことができなかった。
私は、PDF自体にメタデータタグを追加することを考えました。これを行うには、ExtractrequestHandlerがこのメタデータを処理する必要があります。私はそれもどちらか分かりません。 私は "pdftk"を使ってメタデータを追加しようとしました。カスタムタグを追加できませんでした。それはタイトル/著者/キーワードなどを更新/追加するだけです。誰も似たようなUnixツールを知っていますか?
誰かがヒントを持っている場合は、共有してください。 1つのファイルを作成しないようにしたい(PDFテキストとメタデータファイルをマージする)。以下のようなファイルrecord1234.pdf
とメタデータが与えられ
Solrを使用してPDFファイルのインデックスを作成するか、PDFファイルの* content *をSolrインデックスに実際に追加することを意味しますか? –