HDFSからSolrへのpdfファイルの索引付け方法

Apache Solrの新機能私のプロジェクトでは、HDFSからSolrへのpdf文書をアップロードする必要があり、そこからSolr rest APIを使用したいと考えています。ローカルファイルシステムに合計40kのpdfドキュメントがあります。まず、それらをHDFSにプッシュします。しかし、そこからSolrには私には全くのアイデアはありませんHDFSからSolrへのpdfファイルの索引付け方法

もう一つは、solrへのインデックス作成中に、私はpdfドキュメントからいくつかのデータを読み込み、そのデータをSolrにも索引したいと思います。 例：私はPDFドキュメントからextraxt候補名、候補位置をしたいとのように見えるSolrのスキーマにそれらをプッシュし、

name: "candidate_name" 
location: "candidate_location" 
document: "pdf_document"

私はインターネット上で、この検索が、適切なソリューションを見つけることができなかった

出典

2016-05-03 Shekar Patel

solrにインデックスを付けています。 Apache TikaはPDFコンテンツと索引の抽出に注意します。しかし、すべてのページテキストコンテンツは1つのフィールドに格納されます。 – vinod

https：//cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS ... https://developer.ibm.com/hadoop/blog/2016/01/01/indexing-hadoop -docs-solr/ –

こんにちは@AbhijitBashetti、あなたが投稿したリンクが404エラーを表示しています。とにかく返信いただきありがとうございます。 –

https://github.com/lucidworks/hadoop-solr

DirectoryIngestMapperを試してみてください.Tika解析がありますが、カスタマイズする必要があります。

出典

2016-05-26 03:45:10 acesar

HDFSからSolrへのpdfファイルの索引付け方法

答えて

関連する問題