2017-05-19 5 views
1

MSドキュメント(.docx .xlsなど)/ .pdfをアップロードしてこれらのファイルから単語を検索するにはどうすればよいですかJava APIMarklogic Docxタイプ(txt、json、xml以外)ドキュメントのアップロードとファイルでの検索

私は、私はロジックとコードと同じ、私を助けてください、以下

GenericDocumentManager manager = client.newDocumentManager(); 
    StringQueryDefinition query = 
      queryMgr.newStringDefinition().withCriteria("pavan"); 


    DocumentPage documents = manager.search(query, 1); 
    while (documents.hasNext()) { 
     DocumentRecord document = documents.next(); 
     System.out.println("document" + document.getContent(new StringHandle())); 
    } 

を試してみましたが、検索するのdocxファイル

InputStream docStream = Example.class.getClassLoader().getResourceAsStream(
      "data"+File.separator+"Resume.docx"); 



    GenericDocumentManager manager = client.newDocumentManager(); 

    DocumentMetadataHandle handleMetaData = new DocumentMetadataHandle(); 

    // create a handle on the content 
    InputStreamHandle handle = new InputStreamHandle(docStream); 

    // write the document content 
    manager.write("/example/resume.docx", handleMetaData, handle); 

をアップロードするには、以下試してみました。

答えて

2

この場合、何らかの変換を適用する必要があります。 MarkLogicは、バイナリドキュメントをバイナリノードとして格納しています(この場合、バイナリドキュメントはあなたが参照しているものです - pdf、docxなど)。もちろんバイナリノードは検索できません。あなたがコンバージョンを達成することができ、かなりの数の方法があります。

を使用することができ、この

  • を達成するために、このようなhttps://docs.marklogic.com/xdmp:pdf-convertなどの機能を、使用することができますリソースがあなたを助けます。さらに、これらのコンセプトが説明されている開発者または管理者のトレーニングに参加することもできます。詳しくは、http://www.marklogic.com/training/

  • +0

    これをお寄せいただきありがとうございます。パイプラインをインストールしてファイルをアップロードすることができました。私はPDFをアップロードすることができます、私はそれが処理され、XMLが生成されることがわかりました。しかし、私が探しているとき、それは結果を返さない。ドキュメント(.docx)の場合、それは処理されておらず、デフォルトの変換を行わない – Pavan

    関連する問題