2016-05-03 7 views
0

Apache Solrの新機能 私のプロジェクトでは、HDFSからSolrへのpdf文書をアップロードする必要があり、そこからSolr rest APIを使用したいと考えています。 ローカルファイルシステムに合計40kのpdfドキュメントがあります。まず、それらをHDFSにプッシュします。しかし、そこからSolrには私には全くのアイデアはありませんHDFSからSolrへのpdfファイルの索引付け方法

もう一つは、solrへのインデックス作成中に、私はpdfドキュメントからいくつかのデータを読み込み、そのデータをSolrにも索引したいと思います。 例:私はPDFドキュメントからextraxt候補名、候補位置をしたいとのように見えるSolrのスキーマにそれらをプッシュし、

name: "candidate_name" 
location: "candidate_location" 
document: "pdf_document" 

私はインターネット上で、この検索が、適切なソリューションを見つけることができなかった

+0

solrにインデックスを付けています。 Apache TikaはPDFコンテンツと索引の抽出に注意します。しかし、すべてのページテキストコンテンツは1つのフィールドに格納されます。 – vinod

+0

https://cwiki.apache.org/confluence/display/solr/Running+Solr+on+HDFS ... https://developer.ibm.com/hadoop/blog/2016/01/01/indexing-hadoop -docs-solr/ –

+0

こんにちは@AbhijitBashetti、あなたが投稿したリンクが404エラーを表示しています。とにかく返信いただきありがとうございます。 –

答えて