2017-02-24 7 views
2

PDFリンクからPDFのキーワード値を抽出します。私はいくつかのPDFへのリンクを含むページをクロールしています。私はそれらのPDFをエンキューする必要がある仮想ドキュメントを構築したいと思います。私はそれらのPDFの内容をクロールしたくないですが、私はそれらのPDFからキーワードを抽出したいだけです。 inspectソースでこれらのPDFリンクを開くと、キーワードフィールドがあります。しかし、キーワードの価値はありません。これは次のようになります:IBM Watson Explorerを使用してPDF URLのキーワード・プロパティーを抽出する方法は?

<div class="row"> 
<span data-l10n-id="document_properties_keywords">Keywords:</span> <p id="keywordsField">-</p> 
</div> 

PDFからキーワードを抽出する方法はありますか?これらのPDFにはキーワードがあります。これらのPDFをダウンロードすると、Open PDFのプロパティとキーワードに価値があります。 参照:https://www.ibm.com/support/knowledgecenter/SS8NLW_10.0.0/com.ibm.swg.im.infosphere.dataexpl.engine.tut.virt.doc/t_cc-build-virt-docs.html

答えて

0

私は知らないうちに、クローラプラグインまたは独自のクローラを実装しようとすることができます。抽出メタデータを追加し、あなたがあなたのPDF文書のために実装する必要がこの

@Override 
    public CrawledData updateDocument(CrawledData crawledData) throws CrawlerPluginException { 

     List<FieldMetadata> metadataList = crawledData.getMetadataList(); 
     String MyPDFProperty= getFromOriginalContent(crawledData.getOriginalContents()); 

// getFromOriginalContent方法のような何かを行うことができますプラグインクローラーでは、たとえば、インデックスに追加するにはフックがあります

  if (metadataList == null) { 
      metadataList = new ArrayList<FieldMetadata>(); 
      }      

FieldMetadata pdfFieldMetaData = new FieldMetadata("pdfextractedpropertyr", MyPDFProperty); 
       metadataList.add(pdfFieldMetaData); 
       crawledData.setMetadataList(metadataList); 

      } catch (ClientServicesException e) { 

       logger.error(e.getMessage()); 
       throw new CrawlerPluginException(e); 
      } 
      } 
      return crawledData; 
    } 
関連する問題